Mira Murati 的 Thinking Machines 本周以其首次实质性技术宣讲出现:"interaction models" —— 跨音频、视频和文本持续感知和响应的 AI 系统,而不是等待用户完成打字或说话。架构赌注是实时协作应该属于模型内部,而不是通过语音活动检测加上轮次启发式缝合在上面。他们引用 Sutton 的苦涩教训是不微妙的部分:bolt-on 交互性将被从头训练的模型超越。
架构是两层的,从头训练。interaction model 与用户保持持续的双向交换 —— 持续感知音频和视频流、多流微轮设计、时间感知,以及没有独立 VAD 或轮次检测组件的对话管理。background model 异步运行,处理持续推理、工具使用、搜索和更长视野工作。interaction model 在需要更深思考时委派给它,然后将结果织回实时对话。声称的能力:模型跟踪说话者是在思考、让步还是自我纠正(没有独立的对话管理器);可以根据需要进行口头或视觉插话;可以与用户同时说话(实时翻译);具有显式时间意识;可以在听的同时进行同时工具调用、网络搜索或生成式 UI。Thinking Machines 声称 interaction model 单独在"交互和智能基准上都具有竞争力",但没有分享具体数字。他们与同期的专门语音模型(Moshi、PersonaPlex、Nemotron VoiceChat、GPT-Realtime-Translate)区分开来,并将 Qwen-omni、KAME 和 MoshiRAG 的先前工作记为架构祖先。
OpenAI 的 GPT-Realtime、Anthropic 的 voice mode 和 Google 的 Gemini Live 都使用类似形式:基础模型 + VAD + 文本到语音 + 顶部的轮次管理。Thinking Machines 的赌注是这会被原生实时训练超越。论点有牙齿:实时机器人和自动驾驶车辆堆栈已经这样工作(持续双向感知,不等"用户说完话"),Kyutai 的 Moshi 等纯语音模型已证明端到端音频在小规模上可行。Thinking Machines 跨模态推广该模式,并为难推理添加 background-model 分割 —— 更接近人类实际协作的方式,你可以慢慢思考一个问题,同时仍然实时点头说"嗯哼"。问题:原生 voice/video 训练在数据和计算上昂贵,TM 没有发布扩展数字。如果架构有效,这是实时 AI 产品的真正不同形态 —— 真正对话而不是轮流发言的智能体。如果无效,这是对一个两年来一直"足够好"运行的前沿实验室管道的昂贵赌注。
仅研究预览 —— 尚不可试用。有限研究预览"在未来几个月","今年晚些时候"更广泛发布。Thinking Machines 于 2025 年 2 月由 Murati 在以 CTO 身份离开 OpenAI 后创立;实验室此后失去人员到 Meta 和回到 OpenAI,这为"他们真的发货"设置了比已建立实验室更高的标准。技术宣讲是真实的,值得跟踪。苦涩教训的框架也作为公开承诺装置:他们现在已公开将其架构身份绑定到"无脚手架",这使得他们更难悄悄回到 voice-mode-plus-pipeline,如果从头训练扩展不成功。展示的演示示例:跟踪故事中动物的提及、实时语音翻译,以及姿势校正(告诉某人何时弯腰)。具体到足以成为研究工件,还不是产品。
