Thinking Machines de Mira Murati est sortie cette semaine avec son premier pitch technique substantiel : les « interaction models » — des systèmes d'IA qui perçoivent et répondent continuellement à travers l'audio, la vidéo et le texte plutôt que d'attendre que l'utilisateur finisse de taper ou parler. Le pari architectural est que la collaboration temps-réel appartient à l'intérieur du modèle, pas cousue par-dessus via voice-activity-detection plus heuristiques de tour de parole. Leur citation de la bitter lesson de Sutton est la partie non subtile : l'interactivité bolt-on sera dépassée par les modèles entraînés de zéro pour ça.

L'architecture est à deux étages, entraînée de zéro. Le interaction model maintient un échange constant à deux voies avec l'utilisateur — perception continue des flux audio et vidéo, design multi-stream micro-tour, conscience du temps, et gestion de dialogue sans composant VAD ou détection de tour séparé. Le background model tourne asynchrone et gère le raisonnement soutenu, l'usage d'outils, la recherche, et le travail à plus long horizon. L'interaction model délègue à lui quand une pensée plus profonde est nécessaire, puis tisse les résultats dans la conversation live. Capacités revendiquées : le modèle suit si le locuteur réfléchit, cède la parole, ou s'auto-corrige (pas de gestionnaire de dialogue séparé) ; peut interrompre verbalement ou visuellement selon le besoin ; peut parler en même temps que l'utilisateur (traduction live) ; a une conscience explicite du temps ; peut faire des appels d'outils simultanés, recherche web, ou UI générative pendant qu'il écoute. Thinking Machines affirme que le interaction model seul est « compétitif à la fois sur les benchmarks interactifs et d'intelligence » mais ne partage pas de chiffres spécifiques. Ils se distinguent des modèles voice spécialisés contemporains (Moshi, PersonaPlex, Nemotron VoiceChat, GPT-Realtime-Translate) et créditent des travaux antérieurs de Qwen-omni, KAME, et MoshiRAG comme ancêtres architecturaux.

GPT-Realtime d'OpenAI, voice mode d'Anthropic, et Gemini Live de Google utilisent tous une forme similaire : modèle de fondation + VAD + text-to-speech + gestion de tour par-dessus. Le pari de Thinking Machines est que ça se fait dépasser par l'entraînement temps-réel natif. L'argument a des dents : les stacks de robotique temps-réel et de véhicules autonomes fonctionnent déjà comme ça (perception bidirectionnelle continue, pas d'attente de « l'utilisateur a fini de parler »), et les modèles voice-only comme Moshi de Kyutai ont prouvé que l'audio end-to-end est faisable à petite échelle. Thinking Machines généralise le pattern à travers les modalités et ajoute le split background-model pour le raisonnement difficile — plus proche de la façon dont les humains collaborent réellement, où on peut penser lentement à un problème en hochant la tête et en disant « hum-hum » en temps réel. Le hic : l'entraînement natif voice/vidéo est cher en données et en compute, et TM n'a pas livré de chiffres de scaling. Si l'architecture marche, c'est une vraie forme différente pour les produits IA live — des agents qui conversent vraiment plutôt que tour-de-parler. Si ça ne marche pas, c'est un pari coûteux contre un pipeline labo-frontière qui fonctionne « assez bien » depuis deux ans.

Recherche preview seulement — pas disponible à essayer encore. Preview de recherche limitée « dans les mois à venir », release plus large « plus tard cette année ». Thinking Machines a été fondé en février 2025 par Murati après son départ d'OpenAI comme CTO ; le labo a depuis perdu du personnel vers Meta et de retour vers OpenAI, ce qui place une barre plus haute pour « ils livrent vraiment » qu'un labo établi obtient. Le pitch technique est réel et mérite d'être suivi. Le framing bitter-lesson agit aussi comme dispositif d'engagement public : ils ont maintenant lié publiquement leur identité architecturale à « no scaffolding », ce qui rend plus difficile pour eux de retomber discrètement sur voice-mode-plus-pipeline si le scaling d'entraînement de zéro ne marche pas. Exemples démos montrés : suivre les mentions d'animaux dans une histoire, traduction speech temps-réel, et correction de posture (dire à quelqu'un quand il s'avachit). Assez concret pour être un artéfact de recherche, pas encore un produit.