MindWave AI快报 聚合 AI 前沿动态,筛出值得关注的信号。

Odyssey推出PROWL框架:用强化学习训练世界模型

世界模型初创公司Odyssey发布PROWL框架,首次将RLHF思路引入视觉世界模型训练,通过RL智能体自动发现并修复模型缺陷,在Minecraft环境中将动作跟随误差降低20.9%。

References

RLHF(基于人类反馈的强化学习)让语言大模型完成了从"能说话"到"说得好"的飞跃。如今,这套思路被世界模型公司Odyssey首次搬到了视觉世界模型的训练中。

Odyssey正式发布了PROWL(Prioritized Regret-Driven Optimization for World Model Learning)框架,其核心思路是:派一个RL智能体进入游戏环境自由探索,专门寻找世界模型在几何、运动、视觉一致性和动作响应上的失败案例,再将这些缺陷数据反哺给模型进行训练。

核心创新:优先级对抗轨迹缓冲区

PROWL设计了**PAT(Priority Adversarial Trajectory,优先级对抗轨迹缓冲区)**机制。当世界模型修复了简单缺陷后,PAT自动将更困难的失败案例推向前台。这意味着:世界模型越强,RL智能体就必须挖掘更深的缺陷——两者互相逼迫,形成螺旋上升的闭环。

这一机制模拟了RLHF中人类反馈的自动版本,用对抗性探索取代了人工标注,解决了世界模型长期依赖堆数据的困境。

实验验证:Minecraft环境大幅领先基线

团队在Minecraft的MineRL环境中验证了PROWL的效果。在300条人类操作留出片段上的量化结果显示:

  • 整体动作跟随误差(AFS-EPE)比预训练基线降低12.6%
  • 在最难的前10%片段上,降幅扩大至20.9%

具体表现包括:动作跟随更准确(基线常预测错方向或无视操控指令)、消除了旋转接缝和颜色条纹等视觉瑕疵、UI元素如准星在镜头移动时保持稳定、甚至能处理180°急转身等训练数据之外的极端动作。

值得注意的是,同期也有来自清华大学团队的研究RLVR-World探索类似方向,同样用强化学习优化世界模型的可验证奖励。PROWL的不同之处在于其PAT优先级机制和对失败案例的系统性挖掘。

公司背景

Odyssey成立于2023年,总部位于旧金山,由前Cruise产品副总裁Oliver Cameron(CEO)和前Wayve技术副总裁Jeff Hawke(CTO)联合创立。公司累计融资2700万美元,投资方包括英伟达NVentures、GV(谷歌风投)和EQT Ventures等知名机构。

此前,Odyssey已发布Odyssey-2系列世界模型,并尝试用背包相机拍摄真实世界来构建训练数据。PROWL是他们提出的首个专门针对世界模型训练方法论的框架,相关论文已公开。