Thinking Machines Lab发布「交互模型」,挑战实时语音AI天花板
前OpenAI首席技术官Mira Murati创立的Thinking Machines Lab(思考机器实验室)于近日发布了其首个「交互模型」研究预览,引发AI行业关注。这一新系统在实时语音交互领域展现出超越同类产品的性能,标志着原生多模态实时AI交互进入新阶段。
核心技术突破
该系统采用TML-Interaction-Small模型,基于2760亿参数的混合专家(MoE)架构,但每次推理仅激活120亿参数,在性能与效率之间取得平衡。
与依赖外部工具拼接语音和文本的传统做法不同,该模型原生处理实时音视频互动,能够实现:
- 200毫秒「微回合」响应:持续接收信息,边听、边看、边说
- 实时打断支持:用户可随时打断AI输出
研发团队为解决传统大模型「生成回答时停止感知」的痛点,将系统拆分为前后台双轨架构:
- 前台模型:专门维持不间断的对话流
- 后台模型:同步处理复杂推理、网页搜索或UI生成,结果无缝流回前台
性能数据亮眼
官方基准测试显示,该模型在FD-bench V1.5中斩获77.8分,语音轮转延迟仅0.40秒,两项核心指标均超越GPT-realtime-2.0和Gemini 3.1 Flash Live。
局限性与发展计划
不过,团队也坦诚指出当前挑战:连续处理音视频会快速消耗上下文容量,且低延迟效果极度依赖网络环境状况。Thinking Machines Lab表示,计划在未来数月内开放有限预览。
背景回顾
Thinking Machines Lab于2025年2月由Mira Murati创立,联合创始人包括前OpenAI安全系统负责人Lilian Weng等核心成员。该公司以20亿美元创纪录种子轮融资亮相,由a16z领投,估值据传高达100亿美元,团队半数成员来自前东家OpenAI。此次交互模型的发布,被视为该实验室正式加入AI实时交互赛道的重要信号。