Thinking Machines de Mira Murati emergió esta semana con su primera presentación técnica sustancial: "interaction models" — sistemas de IA que perciben y responden continuamente a través de audio, video y texto en lugar de esperar a que los usuarios terminen de escribir o hablar. La apuesta arquitectónica es que la colaboración en tiempo real pertenece dentro del modelo, no cosida encima vía voice-activity-detection más heurísticas de turno. Su cita de la lección amarga de Sutton es la parte no sutil: la interactividad bolt-on será superada por modelos entrenados desde cero para ello.

La arquitectura es de dos niveles, entrenada desde cero. El interaction model mantiene intercambio constante de dos vías con el usuario — percepción continua de flujos de audio y video, diseño multi-stream micro-turno, conciencia del tiempo, y gestión de diálogo sin componente VAD o detección de turno separado. El background model corre asíncrono y maneja razonamiento sostenido, uso de herramientas, búsqueda, y trabajo de horizonte más largo. El interaction model delega a él cuando se necesita pensamiento más profundo, luego teje los resultados de vuelta en la conversación en vivo. Capacidades reclamadas: el modelo rastrea si el hablante está pensando, cediendo, o autocorrigiéndose (sin gestor de diálogo separado); puede interjectar verbal o visualmente según se necesite; puede hablar concurrentemente con el usuario (traducción en vivo); tiene conciencia explícita del tiempo; puede hacer llamadas de herramientas simultáneas, búsqueda web, o UI generativa mientras escucha. Thinking Machines afirma que el interaction model solo es "competitivo en benchmarks interactivos y de inteligencia" pero no comparte números específicos. Se distinguen de modelos voice especializados contemporáneos (Moshi, PersonaPlex, Nemotron VoiceChat, GPT-Realtime-Translate) y acreditan trabajo previo de Qwen-omni, KAME, y MoshiRAG como ancestros arquitectónicos.

GPT-Realtime de OpenAI, voice mode de Anthropic, y Gemini Live de Google usan todos una forma similar: modelo fundacional + VAD + text-to-speech + gestión de turnos encima. La apuesta de Thinking Machines es que esto se ve superado por entrenamiento de tiempo real nativo. El argumento tiene dientes: los stacks de robótica de tiempo real y vehículos autónomos ya funcionan así (percepción bidireccional continua, sin esperar a que "el usuario terminó de hablar"), y modelos voice-only como Moshi de Kyutai probaron que audio end-to-end es factible a pequeña escala. Thinking Machines generaliza el patrón a través de modalidades y agrega el split background-model para razonamiento duro — más cerca de cómo los humanos realmente colaboran, donde puedes pensar lentamente sobre un problema mientras aún asientes con la cabeza y dices "ajá" en tiempo real. La trampa: el entrenamiento nativo voice/video es caro en datos y compute, y TM no ha mostrado números de scaling. Si la arquitectura funciona, esta es una forma realmente diferente para productos de IA en vivo — agentes que genuinamente conversan en lugar de tomar turnos. Si no, es una apuesta costosa contra un pipeline de lab frontera que ha funcionado "lo suficiente" durante dos años.

Vista previa de investigación solamente — no disponible para probar aún. Vista previa de investigación limitada "en los próximos meses", lanzamiento más amplio "más tarde este año". Thinking Machines fue fundada en febrero 2025 por Murati tras dejar OpenAI como CTO; el lab desde entonces ha perdido personal a Meta y de vuelta a OpenAI, lo que pone una barra más alta para "realmente lanzan" que la que obtiene un lab establecido. La presentación técnica es real y vale la pena seguir. El framing de lección amarga también actúa como dispositivo de compromiso público: ahora han atado públicamente su identidad arquitectónica a "sin andamiajes", lo que hace más difícil para ellos volver silenciosamente a voice-mode-plus-pipeline si el scaling de entrenamiento desde cero no funciona. Ejemplos de demo mostrados: rastrear menciones de animales en una historia, traducción speech en tiempo real, y corrección de postura (decirle a alguien cuando se está encorvando). Suficientemente concreto para ser un artefacto de investigación, no un producto todavía.