web-supplemented 2026-05-19 15:38 MiniMax-M2.7

AI初创公司Odyssey两天连发两款世界模型，实时交互与多人协作成焦点

AI公司Odyssey在48小时内发布Starchild-1和Agora-1两款世界模型，分别实现实时视听交互和多人游戏场景，标志世界模型正从离线视频生成向交互式游戏引擎演进。

odyssey世界模型人工智能实时交互starchild-1agora-1游戏引擎

References

AI初创公司Odyssey近日在48小时内接连发布两款世界模型——Starchild-1和Agora-1，展示出将AI生成技术从被动视频输出转变为主动交互引擎的明确野心。

Starchild-1：实时视听交互突破

Starchild-1被定位为"首个实时多模态世界模型"，其核心创新在于实现了真正的实时视听交互。与传统视频生成模型（如Google DeepMind的Veo）采用的离线生成模式不同，Starchild-1允许用户在整个生成过程中随时介入——通过语音、文本或动作指令实时改变画面走向和环境音效。

实现这一能力的技术基础在于"因果蒸馏"（causal distillation）和"异步KV缓存"机制。这两种技术分离了音频和视频的上下文保存节奏，使模型能够独立追踪并快速响应用户的即时输入。

值得注意的是，音频同步在该模型的设计中被赋予了特殊意义。Odyssey认为，音频能够迫使模型学习到纯静音视频"难以伪造"的潜在物理结构和社会规律，从而生成更可信的世界模拟。

紧接着发布的Agora-1则将实时交互扩展至多人场景，支持最多4名真人或AI玩家在同一游戏环境中实时对战。官方演示选择了经典射击游戏《黄金眼007》作为测试场景。

此前，让多个智能体在同一虚拟空间协作的技术方案存在明显瓶颈：Multiverse采用分屏式状态表示，难以保持全局一致性；Solaris则将所有参与者强行拼接进单一Transformer序列，上下文长度随玩家增加而急剧膨胀，导致玩家分散时世界状态难以同步。

Agora-1采用了"状态与渲染分离"的架构设计：首先在内部维护一个统一的共享状态层，精确追踪每名玩家的位置和生命值；再交由Diffusion Transformer（DiT）模型读取该状态，为每位玩家单独渲染个性化的第一人称视角画面。这种解耦设计从根本上避免了多人场景下的状态不一致问题。

连发两款模型反映了Odyssey的核心愿景：世界模型不应只是单向输出视频，而应成为能听、能看、能多人联机的实时交互系统。

公开资料显示，Odyssey由两位具有自动驾驶背景的创始人创办，已累计融资2700万美元。

目前，两款模型均以研究预览的形式发布，官方坦言系统仍有不稳定性，但对于下一代AI生成式体验的潜力已有充分展示。