web-supplemented 2026-05-12 08:17 MiniMax-M2.7

前OpenAI CTO新产品曝光：原生多模态实时交互，延迟压倒GPT-Realtime

前OpenAI首席技术官Mira Murati创立的Thinking Machines Lab发布全新「交互模型」研究预览，采用2760亿参数MoE架构实现200毫秒响应速度，在语音延迟和基准测试中超越GPT-realtime-2.0。

aithinking machines labmira murati实时交互多模态模型openai

References

Thinking Machines Lab 团队 — Mira Murati创立的Thinking Machines Lab于2025年2月正式成立，团队阵容豪华 Image source

Thinking Machines Lab发布「交互模型」，挑战实时语音AI天花板

前OpenAI首席技术官Mira Murati创立的Thinking Machines Lab（思考机器实验室）于近日发布了其首个「交互模型」研究预览，引发AI行业关注。这一新系统在实时语音交互领域展现出超越同类产品的性能，标志着原生多模态实时AI交互进入新阶段。

核心技术突破

该系统采用TML-Interaction-Small模型，基于2760亿参数的混合专家（MoE）架构，但每次推理仅激活120亿参数，在性能与效率之间取得平衡。

与依赖外部工具拼接语音和文本的传统做法不同，该模型原生处理实时音视频互动，能够实现：

200毫秒「微回合」响应：持续接收信息，边听、边看、边说
实时打断支持：用户可随时打断AI输出

研发团队为解决传统大模型「生成回答时停止感知」的痛点，将系统拆分为前后台双轨架构：

前台模型：专门维持不间断的对话流
后台模型：同步处理复杂推理、网页搜索或UI生成，结果无缝流回前台

性能数据亮眼

官方基准测试显示，该模型在FD-bench V1.5中斩获77.8分，语音轮转延迟仅0.40秒，两项核心指标均超越GPT-realtime-2.0和Gemini 3.1 Flash Live。

局限性与发展计划

不过，团队也坦诚指出当前挑战：连续处理音视频会快速消耗上下文容量，且低延迟效果极度依赖网络环境状况。Thinking Machines Lab表示，计划在未来数月内开放有限预览。

背景回顾

Thinking Machines Lab于2025年2月由Mira Murati创立，联合创始人包括前OpenAI安全系统负责人Lilian Weng等核心成员。该公司以20亿美元创纪录种子轮融资亮相，由a16z领投，估值据传高达100亿美元，团队半数成员来自前东家OpenAI。此次交互模型的发布，被视为该实验室正式加入AI实时交互赛道的重要信号。

Thinking Machines Lab发布「交互模型」，挑战实时语音AI天花板

核心技术突破

性能数据亮眼

局限性与发展计划

背景回顾

相关文章