O que é o VOID?
VOID é uma estrutura de remoção de objetos em vídeo que se concentra em criar resultados de inpainting fisicamente plausíveis, particularmente em cenários onde os objetos interagem significativamente com seu ambiente.
Como o VOID funciona?
O VOID utiliza um modelo de visão-linguagem para identificar regiões afetadas pela remoção de um objeto e orienta um modelo de difusão de vídeo para gerar resultados contrafactuais consistentes. Ele emprega um processo de refinamento em duas passagens para melhorar a qualidade da saída.
Quais conjuntos de dados são usados para treinar o VOID?
O VOID é treinado em um novo conjunto de dados pareados gerado a partir de Kubric (sintético) e HUMOTO (movimento humano) para garantir uma remoção de objetos contrafactuais eficaz.
Como o VOID se compara a outros métodos de remoção de objetos em vídeo?
O VOID supera métodos anteriores ao preservar melhor a dinâmica da cena e produzir resultados mais realistas após a remoção de objetos.