Anthropic a lancé un harnais à trois agents conçu pour résoudre l'un des plus gros problèmes du codage autonome : les agents IA qui perdent le fil durant de longues sessions de développement. Le système répartit le travail entre des agents dédiés à la planification, la génération et l'évaluation, utilisant des transferts structurés et des remises à zéro du contexte pour maintenir la cohérence lors de sessions de codage multi-heures qui peuvent durer jusqu'à quatre heures et impliquer 5 à 15 itérations.

Ceci répond à ce que j'observe dans les workflows IA de production — des agents qui commencent fort mais dérivent vers l'incohérence quand les fenêtres de contexte se remplissent. L'approche d'Anthropic d'utiliser des agents évaluateurs séparés est particulièrement intelligente. Comme le note Prithvi Rajasekaran d'Anthropic Labs, « Séparer l'agent qui fait le travail de celui qui le juge s'avère être un levier puissant » parce que les agents surévaluent constamment leur propre production, surtout sur des tâches subjectives comme le design d'interface. L'évaluateur utilise Playwright pour vraiment naviguer et tester les interfaces générées, fournissant des commentaires concrets plutôt que de l'auto-félicitation.

Ce qui ressort de la réponse de l'industrie, c'est comment ceci s'attaque au « problème d'amnésie » qui tue la plupart des agents de longue durée. Artem Bredikhin l'a dit parfaitement sur LinkedIn : « chaque nouvelle fenêtre de contexte, c'est l'amnésie ». Les transferts structurés d'Anthropic avec des spécifications JSON et des tests imposés créent une continuité que les techniques de compaction ne peuvent égaler. Là où la compaction préserve le contexte mais rend les modèles timides d'approcher les limites, ce système embrasse les nouveaux départs avec un transfert d'état approprié.

Pour les développeurs qui construisent des workflows IA, ceci valide le pattern qu'on voit fonctionner : des agents spécialisés avec des limites claires battent les agents à usage général qui essaient de tout faire. Si vous construisez des assistants de codage ou des outils de design, le pattern d'évaluation séparée vaut la peine d'être copié — assurez-vous juste que votre évaluateur a de vraies capacités de test, pas juste un autre LLM qui donne des opinions.