Segundo Beating, investigadores da Universidade de Waterloo e da Universidade Brown introduziram Planning at Inference, um novo enquadramento de escalonamento em tempo de inferência, num artigo submetido à ICLR 2026. O enquadramento aplica o algoritmo de Monte Carlo Tree Search (MCTS) do AlphaGo à geração de vídeo de formato longo, pela primeira vez, abordando problemas de deriva semântica e de acumulação de erros em métodos tradicionais de geração sequencial.
Em experiências com o modelo Cosmos-Predict2 de código aberto da Nvidia, o Planning at Inference gerou vídeos coerentes com duração superior a 20 segundos. O sistema superou métodos de base como Greedy Search e Beam Search em persistência de objetos, consistência temporal e alinhamento texto-vídeo. Em comparação com modelos fechados de referência na indústria, os vídeos gerados por este método foram 18% mais longos do que o Sora e 47% mais longos do que o Kling, com fidelidade visual comparável. Como otimização de inferência plug-and-play, o enquadramento não exige re-treinamento do modelo subjacente.