MindWave AI快报 聚合 AI 前沿动态,筛出值得关注的信号。

前OpenAI CTO新产品曝光:原生多模态实时交互,延迟压倒GPT-Realtime

前OpenAI首席技术官Mira Murati创立的Thinking Machines Lab发布全新「交互模型」研究预览,采用2760亿参数MoE架构实现200毫秒响应速度,在语音延迟和基准测试中超越GPT-realtime-2.0。

References

Thinking Machines Lab 团队
Mira Murati创立的Thinking Machines Lab于2025年2月正式成立,团队阵容豪华 Image source

Thinking Machines Lab发布「交互模型」,挑战实时语音AI天花板

前OpenAI首席技术官Mira Murati创立的Thinking Machines Lab(思考机器实验室)于近日发布了其首个「交互模型」研究预览,引发AI行业关注。这一新系统在实时语音交互领域展现出超越同类产品的性能,标志着原生多模态实时AI交互进入新阶段。

核心技术突破

该系统采用TML-Interaction-Small模型,基于2760亿参数的混合专家(MoE)架构,但每次推理仅激活120亿参数,在性能与效率之间取得平衡。

与依赖外部工具拼接语音和文本的传统做法不同,该模型原生处理实时音视频互动,能够实现:

  • 200毫秒「微回合」响应:持续接收信息,边听、边看、边说
  • 实时打断支持:用户可随时打断AI输出

研发团队为解决传统大模型「生成回答时停止感知」的痛点,将系统拆分为前后台双轨架构

  • 前台模型:专门维持不间断的对话流
  • 后台模型:同步处理复杂推理、网页搜索或UI生成,结果无缝流回前台

性能数据亮眼

官方基准测试显示,该模型在FD-bench V1.5中斩获77.8分,语音轮转延迟仅0.40秒,两项核心指标均超越GPT-realtime-2.0和Gemini 3.1 Flash Live

局限性与发展计划

不过,团队也坦诚指出当前挑战:连续处理音视频会快速消耗上下文容量,且低延迟效果极度依赖网络环境状况。Thinking Machines Lab表示,计划在未来数月内开放有限预览

背景回顾

Thinking Machines Lab于2025年2月由Mira Murati创立,联合创始人包括前OpenAI安全系统负责人Lilian Weng等核心成员。该公司以20亿美元创纪录种子轮融资亮相,由a16z领投,估值据传高达100亿美元,团队半数成员来自前东家OpenAI。此次交互模型的发布,被视为该实验室正式加入AI实时交互赛道的重要信号。