Исследователи применили алгоритм AlphaGo MCTS для генерации видео, обойдя Sora по длине на 18%

Платформа Planning at Inference, представленная исследователями из Университета Ватерлоо и Брауновского университета, была введена в работе, поданной на ICLR 2026. В ней представлен новый фреймворк масштабирования на этапе вывода, который впервые применяет алгоритм Monte Carlo Tree Search (MCTS) от AlphaGo для генерации видео большой длительности, решая проблемы семантического дрейфа и накопления ошибок в традиционных последовательных методах генерации.

В экспериментах с моделью Cosmos-Predict2 с открытым исходным кодом от Nvidia Planning at Inference генерировала согласованные видео длительностью свыше 20 секунд. Система превосходила базовые методы вроде Greedy Search и Beam Search по сохранению объектов, временной согласованности и соответствию тексту-видео. По сравнению с ведущими индустриальными закрытыми моделями видео, сгенерированные этим методом, были на 18% длиннее Sora и на 47% длиннее Kling при сопоставимом качестве визуализации. Как оптимизация вывода plug-and-play, этот фреймворк не требует переобучения лежащей в основе модели.

Дисклеймер: Информация на этой странице может быть получена из источников третьих сторон и предоставляется только для ознакомления. Она не отражает взгляды или мнения Gate и не является финансовой, инвестиционной или юридической рекомендацией. Торговля виртуальными активами связана с высоким риском. Пожалуйста, не основывайте свои решения исключительно на данных этой страницы. Подробнее смотрите в Дисклеймере.
комментарий
0/400
Нет комментариев