Thinking Machines aposta em modelos real-time nativos em vez de andaime voice-mode, Zubnet AI Notícias

A Thinking Machines de Mira Murati emergiu esta semana com sua primeira apresentação técnica substancial: "interaction models" — sistemas de IA que percebem e respondem continuamente em áudio, vídeo e texto em vez de esperar que usuários terminem de digitar ou falar. A aposta arquitetônica é que colaboração em tempo real pertence dentro do modelo, não costurada por cima via voice-activity-detection mais heurísticas de turno. A citação da lição amarga de Sutton é a parte não sutil: interatividade bolt-on será ultrapassada por modelos treinados do zero para isso.

A arquitetura é de dois níveis, treinada do zero. O interaction model mantém troca constante de duas vias com o usuário — percepção contínua de fluxos de áudio e vídeo, design multi-stream micro-turno, consciência do tempo, e gerenciamento de diálogo sem componente VAD ou detecção de turno separado. O background model roda assíncrono e lida com raciocínio sustentado, uso de ferramentas, busca, e trabalho de horizonte mais longo. O interaction model delega a ele quando pensamento mais profundo é necessário, então tece os resultados de volta na conversa ao vivo. Capacidades reivindicadas: o modelo rastreia se o falante está pensando, cedendo, ou se autocorrigindo (sem gerenciador de diálogo separado); pode interjectar verbal ou visualmente conforme necessário; pode falar concorrentemente com o usuário (tradução ao vivo); tem consciência explícita do tempo; pode fazer chamadas de ferramentas simultâneas, busca web, ou UI generativa enquanto escuta. Thinking Machines afirma que o interaction model sozinho é "competitivo em benchmarks interativos e de inteligência" mas não compartilha números específicos. Distingue-se de modelos voice especializados contemporâneos (Moshi, PersonaPlex, Nemotron VoiceChat, GPT-Realtime-Translate) e credita trabalho anterior de Qwen-omni, KAME, e MoshiRAG como ancestrais arquitetônicos.

GPT-Realtime da OpenAI, voice mode da Anthropic, e Gemini Live do Google usam todos uma forma similar: modelo fundacional + VAD + text-to-speech + gerenciamento de turnos por cima. A aposta da Thinking Machines é que isso é ultrapassado por treinamento real-time nativo. O argumento tem dentes: stacks de robótica real-time e veículos autônomos já funcionam assim (percepção bidirecional contínua, sem esperar que "o usuário terminou de falar"), e modelos voice-only como o Moshi da Kyutai provaram que áudio end-to-end é viável em pequena escala. Thinking Machines generaliza o padrão por modalidades e adiciona o split background-model para raciocínio duro — mais perto de como humanos realmente colaboram, onde você pode pensar lentamente sobre um problema enquanto ainda acena com a cabeça e diz "uh-huh" em tempo real. O porém: treinamento nativo voice/vídeo é caro em dados e compute, e a TM não compartilhou números de scaling. Se a arquitetura funciona, essa é uma forma realmente diferente para produtos de IA ao vivo — agentes que genuinamente conversam em vez de revezar. Se não, é uma aposta cara contra um pipeline de lab de fronteira que vem funcionando "bem o suficiente" por dois anos.

Pré-visualização de pesquisa apenas — não disponível para experimentar ainda. Pré-visualização de pesquisa limitada "nos próximos meses", lançamento mais amplo "mais tarde este ano". A Thinking Machines foi fundada em fevereiro de 2025 por Murati após deixar a OpenAI como CTO; o lab desde então perdeu pessoal para a Meta e de volta para a OpenAI, o que coloca uma barra mais alta para "eles realmente entregam" do que um lab estabelecido tem. A apresentação técnica é real e vale a pena seguir. O framing de lição amarga também age como dispositivo de compromisso público: eles agora amarraram publicamente sua identidade arquitetônica a "sem andaime", o que torna mais difícil para eles voltarem silenciosamente para voice-mode-plus-pipeline se o scaling de treinamento do zero não funcionar. Exemplos de demo mostrados: rastrear menções de animais em uma história, tradução de fala em tempo real, e correção de postura (dizer a alguém quando está se curvando). Concreto o suficiente para ser um artefato de pesquisa, não um produto ainda.

Thinking Machines aposta em modelos real-time nativos em vez de andaime voice-mode

Mais notícias