UniVideo stellt einen bedeutenden Fortschritt in der KI-Videoerstellung dar, indem es Videoverständnis, -erzeugung und -bearbeitung in einen einheitlichen Workflow integriert. Durch die Nutzung einer Dual-Stream-Architektur kombiniert es die Denkfähigkeiten von Multimodalen Großen Sprachmodellen (MLLM) mit der generativen Kraft von Multimodalen Diffusions-Transformatoren (MMDiT). Dieser innovative Ansatz ermöglicht ein tiefes semantisches Verständnis der Benutzeranweisungen und ermöglicht komplexe Aufgaben wie Objektwechsel, Stilübertragung und konsistente Charakterbearbeitung.