A Anthropic lançou um harness de três agentes projetado para resolver um dos maiores problemas da programação autônoma: agentes de IA que se perdem durante sessões longas de desenvolvimento. O sistema divide o trabalho entre agentes dedicados de planejamento, geração e avaliação, usando transferências estruturadas e reinicializações de contexto para manter coerência em sessões de programação de múltiplas horas que podem durar até quatro horas e envolver de 5 a 15 iterações.
Isso aborda o que tenho visto em workflows de IA de produção — agentes que começam forte mas derivam para incoerência quando as janelas de contexto se enchem. A abordagem da Anthropic de usar agentes avaliadores separados é particularmente inteligente. Como Prithvi Rajasekaran da Anthropic Labs observa, "Separar o agente que faz o trabalho do agente que o julga se mostra uma alavanca forte" porque agentes consistentemente superestimam sua própria produção, especialmente em tarefas subjetivas como design de UI. O avaliador usa Playwright para realmente navegar e testar interfaces geradas, fornecendo feedback concreto ao invés de auto-elogio.
O que se destaca da resposta da indústria é como isso aborda o "problema de amnésia" que mata a maioria dos agentes de longa duração. Artem Bredikhin acertou em cheio no LinkedIn: "cada nova janela de contexto é amnésia". As transferências estruturadas da Anthropic com especificações JSON e testes forçados criam continuidade que técnicas de compactação não conseguem igualar. Onde compactação preserva contexto mas torna modelos tímidos para se aproximar dos limites, este sistema abraça novos começos com transferência de estado apropriada.
Para desenvolvedores construindo workflows de IA, isso valida o padrão que estamos vendo funcionar: agentes especializados com limites claros vencem agentes de propósito geral tentando fazer tudo. Se você está construindo assistentes de programação ou ferramentas de design, o padrão de avaliação separada vale a pena copiar — apenas certifique-se de que seu avaliador tenha capacidades de teste reais, não apenas outro LLM dando opiniões.
