Anthropic lanzó un arnés de tres agentes diseñado para resolver uno de los mayores problemas de la programación autónoma: agentes de IA que se pierden durante sesiones largas de desarrollo. El sistema divide el trabajo entre agentes dedicados de planificación, generación y evaluación, usando transferencias estructuradas y reinicios de contexto para mantener coherencia en sesiones de programación de múltiples horas que pueden durar hasta cuatro horas e involucrar de 5 a 15 iteraciones.
Esto aborda lo que he estado viendo en workflows de IA de producción — agentes que empiezan fuerte pero derivan hacia la incoherencia cuando las ventanas de contexto se llenan. El enfoque de Anthropic de usar agentes evaluadores separados es particularmente inteligente. Como señala Prithvi Rajasekaran de Anthropic Labs, "Separar el agente que hace el trabajo del agente que lo juzga resulta ser una palanca fuerte" porque los agentes consistentemente sobrevaloran su propia producción, especialmente en tareas subjetivas como diseño de UI. El evaluador usa Playwright para realmente navegar y probar las interfaces generadas, proporcionando retroalimentación concreta en lugar de auto-felicitación.
Lo que destaca de la respuesta de la industria es cómo esto aborda el "problema de amnesia" que mata a la mayoría de agentes de larga duración. Artem Bredikhin lo clavó en LinkedIn: "cada nueva ventana de contexto es amnesia". Las transferencias estructuradas de Anthropic con especificaciones JSON y pruebas forzadas crean continuidad que las técnicas de compactación no pueden igualar. Donde la compactación preserva contexto pero hace a los modelos tímidos de acercarse a los límites, este sistema abraza nuevos comienzos con transferencia de estado apropiada.
Para desarrolladores construyendo workflows de IA, esto valida el patrón que estamos viendo funcionar: agentes especializados con límites claros vencen a agentes de propósito general tratando de hacer todo. Si estás construyendo asistentes de programación o herramientas de diseño, el patrón de evaluación separada vale la pena copiarlo — solo asegúrate de que tu evaluador tenga capacidades de prueba reales, no solo otro LLM dando opiniones.
