Claude Code Auto Mode : classifieur Sonnet 4.6 deux étages, 0,4 % de faux positifs

Anthropic a publié l'architecture technique derrière Auto Mode de Claude Code, le système de permissions GA depuis avril qui a remplacé l'approbation à chaque action par une exécution gated par classifieur. Les chiffres clés du post : 0,4 % de faux-positifs après le filtre à deux étages, 17 % de faux-négatifs sur les actions trop empressées détectées, classifieur aveugle par design à la prose de l'assistant et aux outputs d'outils. Pour les builders qui font tourner Claude Code en boucles autonomes ou en fan-outs de subagents, ces chiffres dessinent ce qu'on peut attendre du circuit de sécurité — et le choix architectural en dessous est intéressant en soi.

Trois tiers d'actions. Tier 1 — lectures de fichiers, recherche par texte et pattern, navigation de code, transitions todo et plan-mode — tourne sur une allowlist fixe, jamais gated par le classifieur. Tier 2 — écritures et edits de fichiers à l'intérieur du dossier projet — auto-permises sans review classifieur. Tier 3 — commandes shell, web fetches, intégrations d'outils externes, spawns de subagents, opérations filesystem hors projet — passe par le classifieur. Le classifieur est Sonnet 4.6, deux étages : un filtre rapide single-token « oui/non » (8,5 % FPR seul), avec raisonnement chain-of-thought qui kick in seulement quand l'étage 1 flag (s'effondre à 0,4 % FPR pipeline complet). Le même prompt nourrit les deux étages avec seulement l'instruction finale qui change, donc le prompt caching fait l'essentiel du boulot. Le choix de design qui compte : le classifieur est **reasoning-blind par intention** — il voit seulement les messages user et les tool calls de l'agent, jamais la prose de l'assistant ni les outputs d'outils. C'est une isolation délibérée contre la menace meta-prompt-injection où l'output d'un outil convaincrait le gatekeeper lui-même qu'une chose dangereuse est fine. Les appels subagent sont gated deux fois : outbound à la délégation (block si non-authorisé), return-phase comme warning plutôt que discard. Trois refus consécutifs ou vingt au total déclenchent le circuit-breaker et escaladent à l'humain.

La lecture ecosystem là-dessus, c'est qu'Anthropic parie que le modèle est assez bon pour se policer lui-même, avec le context-stripping délibéré comme garantie. La story permission de Cursor est rules-based en config ; Aider reste approve-each ; le Codex d'OpenAI mise plus sur l'isolation conteneur que sur le gating classifieur runtime. Le pari d'Anthropic est uniquement architectural — même famille de modèle qui fait le travail et la supervision, avec la shape de l'input (pas de prose, pas d'outputs) comme mécanisme de confiance. Le tradeoff 0,4 %/17 % compte : les builders troquent ~un block intempestif par 250 actions gated contre un petit taux de fuite de moves trop empressés qui passent. L'entrée en Auto Mode drop aussi les règles d'allowlist agressives configurées par l'user — accès shell blanket, interpréteurs wildcarded python/node/ruby, commandes package manager run — ce qui veut dire que les configs custom que tu as bâties ne se reportent pas comme sous approve-each. C'est le piège à connaître avant de flipper une session longue en auto.

Move pratique : si tu fais tourner Claude Code avec des règles d'allowlist custom tunées pour la vitesse, audit-les avant d'activer Auto Mode — tes règles shell blanket sont strip. Si tu utilises lourdement des subagents, attends-toi à ce que le gating outbound ajoute de la latence à la délégation ; le flag return-phase est informationnel, pas bloquant. Avec 0,4 % FPR pipeline complet, prévois des prompts d'approbation intempestifs occasionnels dans les sessions longues mais n'architecture pas autour. Le circuit-breaker 3-consécutifs / 20-total est le plancher — si tu le frappes, c'est le système qui te dit d'aller vraiment regarder. Le design reasoning-blind est le drapeau-signal pour les builders qui pensent à leurs propres stacks d'agents : quand le classifieur et l'acteur partagent les poids, ce que chacun voit doit différer, sinon l'acteur peut argumenter le classifieur hors de son jugement.

Claude Code Auto Mode : classifieur Sonnet 4.6 deux étages, 0,4 % de faux positifs

Plus de nouvelles