Веб-сайт обсуждает достижения в генерации видео продолжительностью одну минуту с использованием слоев обучения во время тестирования (TTT), интегрированных в предварительно обученные трансформеры. Этот подход направлен на повышение эффективности и согласованности генерации видео из текстовых раскадровок, особенно в сложных многосценарных нарративах. Исследование подчеркивает проблемы, с которыми сталкиваются существующие модели, и представляет слои TTT как многообещающее решение для генерации согласованных и эстетически приятных видео.