UniVideo représente une avancée significative dans la génération de vidéos par IA, fusionnant compréhension, génération et édition vidéo en un flux de travail unifié. En utilisant une architecture à double flux, il combine les capacités de raisonnement des Modèles de Langage Multimodal (MLLM) avec le pouvoir génératif des Transformateurs de Diffusion Multimodaux (MMDiT). Cette approche innovante permet une compréhension sémantique profonde des instructions de l'utilisateur, facilitant des tâches complexes telles que le remplacement d'objets, le transfert de style et l'édition cohérente de personnages.