Qu'est-ce que VOID ?
VOID est un cadre de suppression d'objets vidéo qui se concentre sur la création de résultats de retouche physiquement plausibles, en particulier dans les scénarios où les objets interagissent de manière significative avec leur environnement.
Comment fonctionne VOID ?
VOID utilise un modèle de vision-langage pour identifier les régions affectées par la suppression d'un objet et guide un modèle de diffusion vidéo pour générer des résultats contrefactuels cohérents. Il emploie un processus de raffinement en deux passes pour améliorer la qualité de la sortie.
Quels jeux de données sont utilisés pour entraîner VOID ?
VOID est entraîné sur un nouveau jeu de données apparié généré à partir de Kubric (synthétique) et HUMOTO (mouvement humain) pour garantir une suppression d'objets contrefactuels efficace.
Comment VOID se compare-t-il à d'autres méthodes de suppression d'objets vidéo ?
VOID surpasse les méthodes précédentes en préservant mieux la dynamique de la scène et en produisant des résultats plus réalistes après la suppression d'un objet.