¿Qué es VOID?
VOID es un marco de eliminación de objetos en video que se centra en crear resultados de inpainting físicamente plausibles, particularmente en escenarios donde los objetos interactúan significativamente con su entorno.
¿Cómo funciona VOID?
VOID utiliza un modelo de visión-lenguaje para identificar las regiones afectadas por la eliminación de un objeto y guía a un modelo de difusión de video para generar resultados contrafactuales consistentes. Emplea un proceso de refinamiento de dos pasadas para mejorar la calidad de la salida.
¿Qué conjuntos de datos se utilizan para entrenar VOID?
VOID se entrena en un nuevo conjunto de datos emparejados generado a partir de Kubric (sintético) y HUMOTO (movimiento humano) para asegurar una eliminación efectiva de objetos contrafactuales.
¿Cómo se compara VOID con otros métodos de eliminación de objetos en video?
VOID supera a los métodos anteriores al preservar mejor la dinámica de la escena y producir resultados más realistas después de la eliminación de objetos.