Claude Code Auto Mode：Sonnet 4.6 兩階段分類器,0.4% 偽陽性

Anthropic 發布了 Claude Code Auto Mode 的技術架構 — 自 4 月 GA 的權限系統,把逐動作批准換成了分類器 gate 的執行。文章的關鍵數字:兩階段過濾後偽陽性 0.4%,對偵測到的過度積極動作偽陰性 17%,分類器按設計對 assistant 的散文和工具 output 是盲的。對在自治循環或 subagent 扇出中跑 Claude Code 的 builder,這些數字塑造了對安全電路的預期 — 而下面的架構選擇本身很有意思。

三個 tier 的動作。Tier 1 — 檔案讀、文字和檔案 pattern 搜尋、程式碼導航、todo 和 plan-mode 轉換 — 跑在固定 allowlist 上,從不經分類器 gate。Tier 2 — 專案目錄內的檔案寫和 edit — 無分類器審查自動允許。Tier 3 — shell 命令、web fetch、外部工具整合、subagent spawn、專案外的 filesystem 操作 — 經分類器。分類器是 Sonnet 4.6,兩階段:一個快速 single-token「是/否」過濾(單獨 8.5% FPR),chain-of-thought 推理只在第 1 階段 flag 時 kick in(摺疊到全管線 0.4% FPR)。同一個 prompt 餵兩個階段,只改最後一條指令,所以 prompt caching 擔了大頭活。要緊的設計選擇:分類器**按意圖 reasoning-blind** — 只看 user 訊息和 agent 的 tool call,從不看 assistant 散文或工具 output。這是對 meta-prompt-injection 威脅的刻意隔離 — 工具 output 說服 gatekeeper 本身某件危險事 OK。Subagent 呼叫 gated 兩次:outbound 在委派(未授權則 block),return-phase 作為 warning 而非 discard。連續 3 次拒絕或共計 20 次觸發熔斷,升級給人類。

生態讀法是 Anthropic 押注模型夠好以自律,刻意的 context-stripping 作為保障。Cursor 的權限故事是 config 裡 rules-based;Aider 留在 approve-each;OpenAI 的 Codex 更多依賴容器隔離而非 runtime 分類器 gating。Anthropic 的押注獨特地架構化 — 同一個模型家族做工作和做監督,input 形狀(無散文、無 output)作為信任機制。0.4%/17% 的 tradeoff 要緊:builder 用每 250 次 gated 動作 ~1 次假 block 換過度積極動作小漏率。進入 Auto Mode 也會 drop user 配置的激進 allowlist 規則 — 全 shell 存取、wildcarded python/node/ruby 解譯器、package manager run 命令 — 這意味著你搭起來的 custom config 不像在 approve-each 下那樣會帶過來。這是把長會話翻到 auto 之前要知道的坑。

實際動作:如果你以 custom allowlist 規則跑 Claude Code 求速度,啟用 Auto Mode 前 audit — 你的 shell blanket 規則會被 strip。如果你重度使用 subagent,預期 outbound gating 在委派時加延遲;return-phase flag 是資訊性的,非阻塞。全管線 0.4% FPR 下,長會話規劃偶發的虛假批准提示,但不要圍繞它做架構。3-consecutive / 20-total 熔斷是底線 — 你撞到它,是系統讓你真的去看。reasoning-blind 設計是給思考自己 agent stack 的 builder 的信號旗:當分類器和執行者共享權重,各自看到的必須不同,否則執行者能把分類器從它的判斷中說服走。

Claude Code Auto Mode：Sonnet 4.6 兩階段分類器,0.4% 偽陽性

更多新聞