MindWave AI快报 聚合 AI 前沿动态,筛出值得关注的信号。

复旦与美团联合开源WBench:首个多轮交互式世界模型评测基准

复旦大学与美团LongCat团队联合发布交互式世界模型评测基准WBench,涵盖289个测试用例和1058轮交互,覆盖视频质量、场景一致、物理合规等五个维度。

References

LongCat团队Logo
美团LongCat团队 Image source

复旦与美团联合开源WBench:首个多轮交互式世界模型评测基准

复旦大学与美团LongCat团队近日联合发布并开源了交互式视频世界模型评测基准WBench(Wan-Bench),旨在系统评估视频生成模型在物理规则理解、时空一致性和交互控制等方面的底层建模能力。

五大维度全面评测

WBench围绕五个核心维度构建评测体系:视频质量(Video Quality)、场景一致性(Setting)、交互遵从度(Interaction)、主体一致性(Consistency)以及物理合规性(Physics)。该基准包含289个测试用例1058轮交互轮次,涵盖导航控制、主体动作、事件编辑和视角切换四种交互类型,同时整合了第一人称与第三人称双重视角,场景和风格覆盖广泛。

评测结果:无一模型称霸全维度

研究团队对20个主流视频生成模型进行了评估,包括商业API(如Kling 3.0、Seedance 1.5)、开源模型(如Wan 2.7、HY-Video、 Cosmos)以及封闭测试版世界模型(如Genie 3、Happy Oyster、HY-World)。

评估结果显示,Kling 3.0综合表现领先,但在主体一致性维度存在明显短板。HY-Video在文本驱动模型中一致性排名第一,但在交互控制上表现欠佳。专注世界模型的Happy Oyster和HY-World在导航控制方面占据优势,然而视频质量维度表现相对较弱。

值得注意的是,物理正确性与渲染质量高度正相关,但与控制能力接近零相关——这意味着即便渲染效果出色的模型,也未必能准确理解物理规律。

多轮交互揭示模型衰退问题

研究还发现一个重要现象:所有模型的性能均随交互轮数增加而衰退,其中导航控制因累积空间偏差退化最为严重。不过,显式几何控制能有效缓解漂移问题——例如HY-World 1.5在多轮稳定性上远超文本驱动的Kling 3.0。

基准难度设计逻辑

研究人员指出,场景动态性与主体刚性是决定基准难度的关键因素。第一人称视角、静态场景搭配刚性机器人主体的组合最易通过,而涉及剧烈运动、非刚性主体(如动物)因形变和速度复杂性,仍是业界面临的长期挑战。

WBench现已开源,相关代码和评测数据可在项目主页获取,为视频生成与世界模型研究提供了标准化的评估工具。