研究背景与核心创新
来自滑铁卢大学、布朗大学等机构的研究团队在ICLR 2026发表论文,首次将AlphaGo围棋程序中标志性的蒙特卡洛树搜索(MCTS)算法跨界应用于长视频生成领域,提出名为「Planning at Inference」的全新推理时缩放(Test-Time Scaling)框架。
传统视频生成方法,无论是单次生成还是分块生成,都普遍面临语义漂移与误差累积的难题。随着视频时长增加,画面内容的连贯性与视觉质量往往急剧下降。研究团队另辟蹊径,将长视频生成任务重新建模为顺序决策问题,在推理阶段引入MCTS算法,通过前瞻性回溯(look-ahead rollouts)和反向传播奖励评估多条视频延续路径,从根本上解决这一痼疾。
Multi-Tree MCTS:连续空间的高效搜索
如何在连续的视频生成空间中实现高效探索,是该研究面临的核心挑战。团队为此设计了Multi-Tree MCTS(多树蒙特卡洛树搜索)变体。与传统单一搜索树方法相比,多树架构能够以更合理的剪枝策略与分支系数在连续状态空间中展开广泛搜寻,显著提升探索效率。
该框架的另一大亮点是极高的模块化特性。Planning at Inference属于完全即插即用的推理时优化方案,开发人员无需对底层大模型进行任何重新训练或微调,即可直接部署于现有的视频生成底座。
实验验证:时长超越Sora与Kling
研究团队以NVIDIA开源视频预测模型Cosmos-Predict2为底座进行实验。结果显示,Planning at Inference成功生成了超过20秒的高质量连贯视频。在物体持久性、时间连贯性以及文本-视频对齐度等核心指标上,MCTS搜索生成质量均大幅超越贪婪搜索(Greedy Search)、束搜索(Beam Search)和Best-of-N等传统基线方法。
值得注意的是,该方法生成的视频在时长上分别比Sora长18%、比Kling长47%,同时在画面精细度与视觉保真度上与两者保持相当。这意味着通过在推理阶段投入更多计算资源,可以在保持质量的前提下显著延长视频时长。
局限性与未来展望
研究团队坦言,当前框架的主要瓶颈在于推理阶段的算力开销。多树搜索机制虽然带来了优异的画面连贯性,但生成速度明显慢于传统的自回归直接生成,限制了实时部署的可能。
然而,随着底层视频生成底座的效率演进与硬件算力的持续增长,以计算成本换取画面质量的推理时缩放路线,有望在大模型基础能力突破特定门槛后,成为长视频生成走向工程实用的关键技术路径。这一研究也为视频生成领域的Test-Time Scaling范式提供了新的思路。