Mira Murati 的 Thinking Machines 本週以其首次實質性技術宣講出現:「interaction models」—— 跨音訊、視訊和文字持續感知和回應的 AI 系統,而不是等待使用者完成打字或說話。架構賭注是即時協作應該屬於模型內部,而不是透過語音活動偵測加上輪次啟發式縫合在上面。他們引用 Sutton 的苦澀教訓是不微妙的部分:bolt-on 互動性將被從頭訓練的模型超越。

架構是兩層的,從頭訓練。interaction model 與使用者保持持續的雙向交換 —— 持續感知音訊和視訊流、多流微輪設計、時間感知,以及沒有獨立 VAD 或輪次偵測元件的對話管理。background model 非同步運行,處理持續推理、工具使用、搜尋和更長視野工作。interaction model 在需要更深思考時委派給它,然後將結果織回即時對話。聲稱的能力:模型追蹤說話者是在思考、讓步還是自我糾正(沒有獨立的對話管理器);可以根據需要進行口頭或視覺插話;可以與使用者同時說話(即時翻譯);具有顯式時間意識;可以在聽的同時進行同時工具呼叫、網路搜尋或生成式 UI。Thinking Machines 聲稱 interaction model 單獨在「互動和智慧基準上都具有競爭力」,但沒有分享具體數字。他們與同期的專門語音模型(Moshi、PersonaPlex、Nemotron VoiceChat、GPT-Realtime-Translate)區分開來,並將 Qwen-omni、KAME 和 MoshiRAG 的先前工作記為架構祖先。

OpenAI 的 GPT-Realtime、Anthropic 的 voice mode 和 Google 的 Gemini Live 都使用類似形式:基礎模型 + VAD + 文字到語音 + 頂部的輪次管理。Thinking Machines 的賭注是這會被原生即時訓練超越。論點有牙齒:即時機器人和自動駕駛車輛堆疊已經這樣工作(持續雙向感知,不等「使用者說完話」),Kyutai 的 Moshi 等純語音模型已證明端到端音訊在小規模上可行。Thinking Machines 跨模態推廣該模式,並為難推理新增 background-model 分割 —— 更接近人類實際協作的方式,你可以慢慢思考一個問題,同時仍然即時點頭說「嗯哼」。問題:原生 voice/video 訓練在資料和計算上昂貴,TM 沒有發布擴展數字。如果架構有效,這是即時 AI 產品的真正不同形態 —— 真正對話而不是輪流發言的智慧體。如果無效,這是對一個兩年來一直「足夠好」運行的前沿實驗室管道的昂貴賭注。

僅研究預覽 —— 尚不可試用。有限研究預覽「在未來幾個月」,「今年晚些時候」更廣泛發布。Thinking Machines 於 2025 年 2 月由 Murati 在以 CTO 身份離開 OpenAI 後創立;實驗室此後失去人員到 Meta 和回到 OpenAI,這為「他們真的發貨」設置了比已建立實驗室更高的標準。技術宣講是真實的,值得追蹤。苦澀教訓的框架也作為公開承諾裝置:他們現在已公開將其架構身分綁定到「無鷹架」,這使得他們更難悄悄回到 voice-mode-plus-pipeline,如果從頭訓練擴展不成功。展示的演示範例:追蹤故事中動物的提及、即時語音翻譯,以及姿勢校正(告訴某人何時彎腰)。具體到足以成為研究工件,還不是產品。