DeepMind presentó Aletheia esta semana, un sistema multi-agente para investigación matemática totalmente autónoma. La vara no son los problemas estilo olimpiada IMO, que ya tienen estructura conocida y soluciones catalogadas, sino lemas de nivel-investigación inéditos sin pistas humanas preexistentes. El equipo de investigación evaluó en FirstProof Challenge, diez de esos lemas, y Aletheia resolvió seis. Los seis fueron juzgados publicables tras revisiones menores por evaluadores expertos. En el IMO-ProofBench más estructurado, Aletheia alcanza 91,9% de precisión. Son las primeras cifras concretas que sugieren que los modelos frontera pueden cerrar la brecha de "solucionador de matemáticas de competencia" a "colaborador de matemáticas de investigación" sin supervisión humana.
La arquitectura es donde vive la lección para desarrolladores. Aletheia es un bucle de tres roles especializados ejecutándose sobre Gemini 3 Deep Think: un Generador propone pasos lógicos, un Verificador evalúa cada paso en busca de fallos, y un Revisor itera y parcha errores. Herramientas externas incluyendo Google Search están cableadas para verificar citas de conceptos y reducir referencias alucinadas. Crucialmente, el sistema puede emitir "sin solución encontrada" en vez de fabricar una prueba, que es la misma disciplina de rechazo-ante-ambigüedad que mantuvo el Auto-Diagnose de Google en 90% de precisión en causa-raíz en triaje de CI esta misma semana, y que (por inferencia de su diseño) subyace al Agente DevOps Bedrock de AWS que alcanzó 94% en incidentes. Tres sistemas independientes en tres dominios distintos, misma semana, misma receta arquitectónica.
La convergencia es la historia. En los últimos dos años, la pregunta dominante para los sistemas agénticos era "¿necesitas un modelo más grande o un wrapper más inteligente?". La respuesta que emerge de estos lanzamientos es ninguno, estrictamente: es la orquestación multi-agente con rechazo. La ganancia viene de dividir la generación, verificación y revisión en roles separados, dar a cada rol acceso a herramientas externas, y dar al sistema completo permiso para abstenerse. Aletheia agrega el matiz específico de matemáticas de que Gemini 3 Deep Think recibe cómputo extendido en test-time (explícitamente intercambiado contra latencia) pero el bucle multi-agente hace el trabajo pesado. El contraste de Aletheia con el enfoque matemático anterior de OpenAI, que dependía de supervisión humana, es la ilustración más clara: reemplaza al humano con un par verificador-revisor y la tarea se vuelve zero-shot.
Si estás construyendo agentes en cualquier dominio, la lección práctica es copiar la forma, no el modelo. Tres cosas se transfieren directamente. Primero, divide tu agente en roles generador/verificador/revisor con prompts y acceso a herramientas distintos en vez de ejecutar una sola llamada en bucle. Segundo, dale al sistema una primitiva de rechazo explícita ("sin solución encontrada" o equivalente) y recompénsalo por usar esa primitiva cuando la evidencia es delgada; vale más que cualquier salto de precisión de un modelo más grande. Tercero, presupuesta cómputo extendido en test-time: Aletheia, Auto-Diagnose y el Agente DevOps de AWS intercambian latencia por fiabilidad, y la pregunta correcta es cómo moldear ese presupuesto de cómputo, no qué modelo llamar. La segunda iteración de Aletheia más un benchmark formal están planeados para marzo-junio 2026; observa si el número de pruebas publicables sigue subiendo, lo que sugeriría que la arquitectura generador-verificador-revisor tiene más espacio que escalar un solo modelo.
