Mira Murati की Thinking Machines इस हफ्ते अपने पहले substantial technical pitch के साथ emerge हुई: "interaction models" — AI systems जो audio, video और text में continuously perceive और respond करते हैं, users के typing या speaking finish करने का wait करने के बजाय। Architectural bet यह है कि real-time collaboration model के अंदर belongs करता है, voice-activity-detection plus turn-taking heuristics के माध्यम से ऊपर stitched नहीं। Sutton के bitter lesson का उनका citation unsubtle part है: bolt-on interactivity scratch से इसके लिए trained models से outpaced हो जाएगी।
Architecture two-tier है, scratch से trained। interaction model user के साथ constant two-way exchange maintain करता है — audio और video streams की continuous perception, multi-stream micro-turn design, time-awareness, और एक अलग VAD या turn-detection component के बिना dialog management। background model asynchronously चलता है और sustained reasoning, tool use, search, और longer-horizon work handle करता है। Interaction model जब deeper thought की जरूरत होती है तब उसको delegate करता है, फिर results को live conversation में वापस weave करता है। दावा की गई capabilities: model track करता है कि speaker thinking, yielding, या self-correcting है (कोई अलग dialog manager नहीं); जरूरत के अनुसार verbal या visual interjection कर सकता है; user के साथ concurrently speak कर सकता है (live translation); explicit time awareness है; listening के दौरान simultaneous tool calls, web search, या generative UI कर सकता है। Thinking Machines दावा करता है कि interaction model अकेले "interactive और intelligence benchmarks दोनों पर competitive" है लेकिन specific numbers share नहीं करता। वे contemporary specialized voice models (Moshi, PersonaPlex, Nemotron VoiceChat, GPT-Realtime-Translate) से अलग करते हैं और Qwen-omni, KAME, और MoshiRAG से prior work को architectural ancestors के रूप में credit देते हैं।
OpenAI का GPT-Realtime, Anthropic का voice mode, और Google का Gemini Live सभी similar shape use करते हैं: foundation model + VAD + text-to-speech + ऊपर turn management। Thinking Machines का bet है कि यह native real-time training से outpaced हो जाता है। Argument में दांत हैं: real-time robotics और autonomous-vehicle stacks पहले से ऐसे काम करते हैं (continuous bidirectional perception, "user finished speaking" का wait नहीं), और Kyutai का Moshi जैसे voice-only models ने proved किया कि end-to-end audio small scale पर feasible है। Thinking Machines pattern को modalities पर generalize करता है और hard reasoning के लिए background-model split जोड़ता है — humans actually कैसे collaborate करते हैं इसके करीब, जहाँ आप एक problem के बारे में slowly think कर सकते हैं और साथ ही real time में nod करते और "uh-huh" कहते रह सकते हैं। Catch: voice/video-native training data-expensive और compute-expensive है, और TM ने scaling numbers ship नहीं किए। अगर architecture काम करती है, यह live AI products के लिए वास्तव में अलग shape है — agents जो वास्तव में converse करते हैं turn-take करने के बजाय। अगर नहीं, यह एक frontier-lab pipeline के विरुद्ध एक expensive bet है जो दो साल से "well enough" काम कर रही है।
केवल research preview — अभी try करने के लिए available नहीं। "आने वाले महीनों में" limited research preview, "इस साल बाद में" wider release। Thinking Machines फरवरी 2025 में Murati द्वारा OpenAI से CTO के रूप में leave करने के बाद founded हुई; lab ने उसके बाद से Meta को और OpenAI में वापस staff खोया है, जो "वे वास्तव में ship करते हैं" के लिए एक established lab से ज्यादा higher bar set करता है। Technical pitch real है और track करने लायक है। Bitter-lesson framing public commitment device के रूप में भी act करता है: उन्होंने अब public रूप से अपनी architectural identity को "no scaffolding" से जोड़ दिया है, जो उन्हें quietly voice-mode-plus-pipeline पर वापस गिरने से ज्यादा कठिन बनाता है, अगर from-scratch training scaling काम नहीं करती। दिखाए गए demo examples: एक story में animals के mentions track करना, real-time speech translation, और posture correction (किसी को बताना कब वे slouch कर रहे हैं)। Research artifact होने के लिए concrete enough, अभी product नहीं।
