web-supplemented 2026-05-13 18:05 MiniMax-M2.7

Odyssey推出PROWL框架：用强化学习训练世界模型

世界模型初创公司Odyssey发布PROWL框架，首次将RLHF思路引入视觉世界模型训练，通过RL智能体自动发现并修复模型缺陷，在Minecraft环境中将动作跟随误差降低20.9%。

人工智能世界模型强化学习OdysseyRLHFPROWL

References

RLHF（基于人类反馈的强化学习）让语言大模型完成了从"能说话"到"说得好"的飞跃。如今，这套思路被世界模型公司Odyssey首次搬到了视觉世界模型的训练中。

Odyssey正式发布了PROWL（Prioritized Regret-Driven Optimization for World Model Learning）框架，其核心思路是：派一个RL智能体进入游戏环境自由探索，专门寻找世界模型在几何、运动、视觉一致性和动作响应上的失败案例，再将这些缺陷数据反哺给模型进行训练。

核心创新：优先级对抗轨迹缓冲区

PROWL设计了**PAT（Priority Adversarial Trajectory，优先级对抗轨迹缓冲区）**机制。当世界模型修复了简单缺陷后，PAT自动将更困难的失败案例推向前台。这意味着：世界模型越强，RL智能体就必须挖掘更深的缺陷——两者互相逼迫，形成螺旋上升的闭环。

这一机制模拟了RLHF中人类反馈的自动版本，用对抗性探索取代了人工标注，解决了世界模型长期依赖堆数据的困境。

实验验证：Minecraft环境大幅领先基线

团队在Minecraft的MineRL环境中验证了PROWL的效果。在300条人类操作留出片段上的量化结果显示：

整体动作跟随误差（AFS-EPE）比预训练基线降低12.6%
在最难的前10%片段上，降幅扩大至20.9%

具体表现包括：动作跟随更准确（基线常预测错方向或无视操控指令）、消除了旋转接缝和颜色条纹等视觉瑕疵、UI元素如准星在镜头移动时保持稳定、甚至能处理180°急转身等训练数据之外的极端动作。

值得注意的是，同期也有来自清华大学团队的研究RLVR-World探索类似方向，同样用强化学习优化世界模型的可验证奖励。PROWL的不同之处在于其PAT优先级机制和对失败案例的系统性挖掘。

公司背景

Odyssey成立于2023年，总部位于旧金山，由前Cruise产品副总裁Oliver Cameron（CEO）和前Wayve技术副总裁Jeff Hawke（CTO）联合创立。公司累计融资2700万美元，投资方包括英伟达NVentures、GV（谷歌风投）和EQT Ventures等知名机构。

此前，Odyssey已发布Odyssey-2系列世界模型，并尝试用背包相机拍摄真实世界来构建训练数据。PROWL是他们提出的首个专门针对世界模型训练方法论的框架，相关论文已公开。

核心创新：优先级对抗轨迹缓冲区

实验验证：Minecraft环境大幅领先基线

公司背景

相关文章