Pratik R 本週在 Towards Data Science 發表了一份針對生產 AI agent 的 12 指標評測 harness,根據作者描述,來自 100+ 個企業部署。這是一位實戰派的 playbook,不是規範標準——而這恰恰是它值得拎出來的理由:閾值具體到能直接借走,失敗模式的分類講到了大多數 benchmark suite 至今避而不談的範疇。harness 分成四組:retrieval、generation、agent 行為、以及生產側的成本/延遲。起源故事比平均水平更誠實:一個醫療客戶的合規官問「你們怎麼知道你們的 agent 沒在幻覺患者症狀」,團隊當時有 unit tests、integration tests,有一個在 demo 資料集上表現漂亮的模型——但沒有任何方法在真實流量上衡量幻覺率、上下文忠實度、或工具選擇精度。

具體閾值是要照搬的部分。Retrieval(4 項):context relevance 在 top-10 chunks 上高於 0.85,context recall 在標註 benchmark query 上高於 0.90,context precision 高於 0.80,retrieval 延遲 p95 低於 200ms。Generation(3 項):answer faithfulness 相對於檢索到的上下文高於 0.95,answer relevance 高於 0.90,幻覺率低於 2%。Agent(3 項):工具選擇精度高於 0.92,工具執行成功率高於 0.98,multi-step coherence 高於 0.85。生產(2 項):典型 query 成本低於 $0.05,p99 端到端延遲低於 3 秒。大部分是用 LLM-as-judge 評分——這是文章最承重的 caveat。LLM-as-judge 在最關鍵的指標上有已知的可靠性問題,尤其是幻覺偵測——judge 模型和 agent 模型可能共享盲點,以及 answer faithfulness——judge 可能把一份領域專家不會認為忠實的答案評為忠實。這個 framework 需要在閾值邊界附近搭配人工 spot-check,而不是被盲信。

生態層面的讀法是:它落在 agent 評測的編輯真空裡。前沿實驗室在飽和的學術 benchmark(HELM、AgentBench、MMLU、GAIA)上發論文,測的是能力不是可部署性;生產團隊兩年來一直在內部搭家用 harness,從不分享樣子。Pratik R 這篇是難得的、真實生產 harness 的結構與閾值揭露——即使你把「100+ 部署」這個聲明打個折。文章命名的三個失敗模式——「我們 MVP 之後再加評測」、「accuracy 就夠了」、「手工 spot-check 行」——和每一個在做 agent 的團隊從自身經驗裡認出來的一致。2% 的幻覺率門檻尤其承重,因為多數公開 benchmark 只報 accuracy,預設接受高得多的幻覺率;但對一個回答客戶問題或驅動受監管流程的 agent 來說,2% 才是可以為上線辯護的那條線。

對 builder:先把四類結構(retrieval、generation、agent、生產)拎走——分組本身不靠出身就成立。把閾值當作起點借走,再針對你的領域校準(醫療需要幻覺接近 0,客戶支援在 agent 能升級的前提下可以容忍 3-5%)。把 LLM-as-judge 當最便宜的訊號,搭配對邊界案例的定期人工複核——文章承認手工複核在每天 1 萬 query 時就崩了,但沒有充分討論 LLM-as-judge 恰恰會在手工複核能抓到的那些案例上自信地犯錯。成本和延遲目標是 framework 裡乏味的另一半,而生產失敗實際上多發生在這裡:一個 1% 幻覺率但每 query 花 $0.50 的 agent 也上不了線。Pratik R 那篇在 TDS 連結裡;把它當作起點參考,而不是標準。