MindWave AI快报 聚合 AI 前沿动态,筛出值得关注的信号。

AI初创公司Odyssey两天连发两款世界模型,实时交互与多人协作成焦点

AI公司Odyssey在48小时内发布Starchild-1和Agora-1两款世界模型,分别实现实时视听交互和多人游戏场景,标志世界模型正从离线视频生成向交互式游戏引擎演进。

References

AI初创公司Odyssey近日在48小时内接连发布两款世界模型——Starchild-1和Agora-1,展示出将AI生成技术从被动视频输出转变为主动交互引擎的明确野心。

Starchild-1:实时视听交互突破

Starchild-1被定位为"首个实时多模态世界模型",其核心创新在于实现了真正的实时视听交互。与传统视频生成模型(如Google DeepMind的Veo)采用的离线生成模式不同,Starchild-1允许用户在整个生成过程中随时介入——通过语音、文本或动作指令实时改变画面走向和环境音效。

实现这一能力的技术基础在于"因果蒸馏"(causal distillation)和"异步KV缓存"机制。这两种技术分离了音频和视频的上下文保存节奏,使模型能够独立追踪并快速响应用户的即时输入。

值得注意的是,音频同步在该模型的设计中被赋予了特殊意义。Odyssey认为,音频能够迫使模型学习到纯静音视频"难以伪造"的潜在物理结构和社会规律,从而生成更可信的世界模拟。

Agora-1:多人协作场景的架构创新

紧接着发布的Agora-1则将实时交互扩展至多人场景,支持最多4名真人或AI玩家在同一游戏环境中实时对战。官方演示选择了经典射击游戏《黄金眼007》作为测试场景。

此前,让多个智能体在同一虚拟空间协作的技术方案存在明显瓶颈:Multiverse采用分屏式状态表示,难以保持全局一致性;Solaris则将所有参与者强行拼接进单一Transformer序列,上下文长度随玩家增加而急剧膨胀,导致玩家分散时世界状态难以同步。

Agora-1采用了"状态与渲染分离"的架构设计:首先在内部维护一个统一的共享状态层,精确追踪每名玩家的位置和生命值;再交由Diffusion Transformer(DiT)模型读取该状态,为每位玩家单独渲染个性化的第一人称视角画面。这种解耦设计从根本上避免了多人场景下的状态不一致问题。

从视频生成到交互引擎

连发两款模型反映了Odyssey的核心愿景:世界模型不应只是单向输出视频,而应成为能听、能看、能多人联机的实时交互系统。

公开资料显示,Odyssey由两位具有自动驾驶背景的创始人创办,已累计融资2700万美元。

目前,两款模型均以研究预览的形式发布,官方坦言系统仍有不稳定性,但对于下一代AI生成式体验的潜力已有充分展示。