web-supplemented 2026-05-28 14:05 MiniMax-M2.7

复旦与美团联合开源WBench：首个多轮交互式世界模型评测基准

复旦大学与美团LongCat团队联合发布交互式世界模型评测基准WBench，涵盖289个测试用例和1058轮交互，覆盖视频质量、场景一致、物理合规等五个维度。

世界模型视频生成评测基准复旦大学美团开源

References

美团LongCat团队 Image source

复旦与美团联合开源WBench：首个多轮交互式世界模型评测基准

复旦大学与美团LongCat团队近日联合发布并开源了交互式视频世界模型评测基准WBench（Wan-Bench），旨在系统评估视频生成模型在物理规则理解、时空一致性和交互控制等方面的底层建模能力。

五大维度全面评测

WBench围绕五个核心维度构建评测体系：视频质量（Video Quality）、场景一致性（Setting）、交互遵从度（Interaction）、主体一致性（Consistency）以及物理合规性（Physics）。该基准包含289个测试用例和1058轮交互轮次，涵盖导航控制、主体动作、事件编辑和视角切换四种交互类型，同时整合了第一人称与第三人称双重视角，场景和风格覆盖广泛。

评测结果：无一模型称霸全维度

研究团队对20个主流视频生成模型进行了评估，包括商业API（如Kling 3.0、Seedance 1.5）、开源模型（如Wan 2.7、HY-Video、 Cosmos）以及封闭测试版世界模型（如Genie 3、Happy Oyster、HY-World）。

评估结果显示，Kling 3.0综合表现领先，但在主体一致性维度存在明显短板。HY-Video在文本驱动模型中一致性排名第一，但在交互控制上表现欠佳。专注世界模型的Happy Oyster和HY-World在导航控制方面占据优势，然而视频质量维度表现相对较弱。

值得注意的是，物理正确性与渲染质量高度正相关，但与控制能力接近零相关——这意味着即便渲染效果出色的模型，也未必能准确理解物理规律。

多轮交互揭示模型衰退问题

研究还发现一个重要现象：所有模型的性能均随交互轮数增加而衰退，其中导航控制因累积空间偏差退化最为严重。不过，显式几何控制能有效缓解漂移问题——例如HY-World 1.5在多轮稳定性上远超文本驱动的Kling 3.0。

基准难度设计逻辑

研究人员指出，场景动态性与主体刚性是决定基准难度的关键因素。第一人称视角、静态场景搭配刚性机器人主体的组合最易通过，而涉及剧烈运动、非刚性主体（如动物）因形变和速度复杂性，仍是业界面临的长期挑战。

WBench现已开源，相关代码和评测数据可在项目主页获取，为视频生成与世界模型研究提供了标准化的评估工具。

复旦与美团联合开源WBench：首个多轮交互式世界模型评测基准

五大维度全面评测

评测结果：无一模型称霸全维度

多轮交互揭示模型衰退问题

基准难度设计逻辑

相关文章