A DeepMind apresentou o Aletheia esta semana, um sistema multi-agente para pesquisa matemática totalmente autônoma. A barra não são os problemas estilo olimpíada IMO, que já têm estrutura conhecida e soluções catalogadas, mas lemas de nível-pesquisa inéditos sem dicas humanas preexistentes. A equipe de pesquisa avaliou no FirstProof Challenge, dez desses lemas, e o Aletheia resolveu seis. Os seis foram julgados publicáveis após revisões menores por avaliadores especialistas. No IMO-ProofBench mais estruturado, o Aletheia atinge 91,9% de precisão. Esses são os primeiros números concretos que sugerem que modelos de fronteira podem fechar a lacuna de "solucionador de matemática de competição" para "colaborador de matemática de pesquisa" sem supervisão humana.

A arquitetura é onde mora a lição para desenvolvedores. O Aletheia é um loop de três papéis especializados rodando sobre o Gemini 3 Deep Think: um Gerador propõe passos lógicos, um Verificador avalia cada passo em busca de falhas, e um Revisor itera e remenda erros. Ferramentas externas incluindo o Google Search estão ligadas para verificar citações de conceitos e reduzir referências alucinadas. Crucialmente, o sistema tem permissão para emitir "nenhuma solução encontrada" em vez de fabricar uma prova, que é a mesma disciplina de recusa-sob-ambiguidade que manteve o Auto-Diagnose do Google em 90% de precisão em causa-raiz na triagem de CI esta mesma semana, e que (por inferência do design) sustenta o Agente DevOps Bedrock da AWS que bateu 94% em incidentes. Três sistemas independentes em três domínios diferentes, mesma semana, mesma receita arquitetônica.

A convergência é a história. Nos últimos dois anos, a pergunta dominante para sistemas agênticos foi "você precisa de um modelo maior ou de um wrapper mais esperto?". A resposta que emerge desses lançamentos não é nenhum dos dois, estritamente: é a orquestração multi-agente com recusa. O ganho vem de dividir geração, verificação e revisão em papéis separados, dar a cada papel acesso a ferramentas externas, e dar ao sistema como um todo permissão para se abster. O Aletheia adiciona o toque específico da matemática de que o Gemini 3 Deep Think recebe compute estendido em test-time (explicitamente trocado por latência) mas o loop multi-agente faz o trabalho pesado. O contraste do Aletheia com a abordagem matemática anterior da OpenAI, que dependia de supervisão humana, é a ilustração mais clara: troque o humano por um par verificador-revisor e a tarefa se torna zero-shot.

Se você está construindo agentes em qualquer domínio, o aprendizado prático é copiar a forma, não o modelo. Três coisas se transferem diretamente. Primeiro, divida seu agente em papéis gerador/verificador/revisor com prompts e acesso a ferramentas distintos em vez de rodar uma única chamada em loop. Segundo, dê ao sistema uma primitiva de recusa explícita ("nenhuma solução encontrada" ou equivalente) e recompense-o por usar essa primitiva quando a evidência é rala; vale mais do que qualquer salto de precisão de um modelo maior. Terceiro, orce compute estendido em test-time: Aletheia, Auto-Diagnose e o Agente DevOps da AWS trocam latência por confiabilidade, e a pergunta certa é como moldar esse orçamento de compute, não qual modelo chamar. A segunda iteração do Aletheia mais um benchmark formal estão planejados para março-junho de 2026; observe se o número de provas publicáveis continua subindo, o que sugeriria que a arquitetura gerador-verificador-revisor tem mais espaço do que escalar um único modelo.