UniVideo представляет собой значительный шаг вперед в генерации видео с использованием ИИ, объединяя понимание видео, генерацию и редактирование в едином рабочем процессе. Используя архитектуру с двумя потоками, он сочетает в себе способности рассуждения многомодальных больших языковых моделей (MLLM) с генеративной мощью многомодальных диффузионных трансформеров (MMDiT). Этот инновационный подход позволяет глубоко понимать семантику пользовательских инструкций, что позволяет выполнять сложные задачи, такие как замена объектов, перенос стиля и последовательное редактирование персонажей.