Pratik R ने इस सप्ताह Towards Data Science पर production AI agents के लिए 12-metric evaluation harness प्रकाशित किया, जिसे लेखक 100+ enterprise deployments से लिया हुआ बताते हैं। यह एक canonical standard नहीं, बल्कि एक practitioner का playbook है — और ठीक इसी वजह से इसे सामने लाना सार्थक है: thresholds इतने ठोस हैं कि उठा कर इस्तेमाल किए जा सकते हैं, और failure-mode framing उन categories को नाम देती है जिन्हें अधिकांश benchmark suites अब भी टालते हैं। harness चार समूहों में बँटा है: retrieval, generation, agent behavior, और production cost/latency। उद्गम कथा औसत से अधिक ईमानदार है: एक healthcare client के compliance officer ने पूछा "तुम कैसे जानते हो कि तुम्हारा agent patient symptoms hallucinate नहीं कर रहा है" और team के पास unit tests थे, integration tests थे, demo dataset पर खूबसूरत प्रदर्शन करने वाला model था — पर live traffic पर hallucination rate, context faithfulness, या tool-selection accuracy मापने का कोई तरीक़ा नहीं था।

ठोस thresholds कॉपी करने योग्य हिस्सा हैं। Retrieval (4 metrics): context relevance top-10 chunks पर 0.85 से ऊपर, context recall labeled benchmark queries पर 0.90 से ऊपर, context precision 0.80 से ऊपर, retrieval latency p95 पर 200ms से कम। Generation (3): retrieved context के सापेक्ष answer faithfulness 0.95 से ऊपर, answer relevance 0.90 से ऊपर, hallucination rate 2% से नीचे। Agent (3): tool selection accuracy 0.92 से ऊपर, tool execution success 0.98 से ऊपर, multi-step coherence 0.85 से ऊपर। Production (2): typical query के लिए लागत $0.05 से कम, p99 end-to-end latency 3 second से कम। अधिकांश को LLM-as-judge evaluator scoring करता है — यही article का load-bearing caveat है। LLM-as-judge की सबसे महत्त्वपूर्ण metrics पर ज्ञात reliability समस्याएँ हैं — विशेषकर hallucination detection में, जहाँ judge model और agent model एक ही तरह के blind spots साझा कर सकते हैं, और answer faithfulness में, जहाँ judge किसी ऐसी चीज़ को faithful बता सकता है जिसे domain expert नहीं कहेगा। framework को threshold boundaries पर human spot-checks के साथ जोड़ना चाहिए, उस पर अंधा भरोसा नहीं करना चाहिए।

ecosystem read agent evaluation में संपादकीय शून्य के विरुद्ध बैठती है। frontier labs saturated academic benchmarks (HELM, AgentBench, MMLU, GAIA) पर प्रकाशित करते हैं जो capability तो जाँचते हैं पर deployability नहीं; production teams दो साल से चुपचाप in-house harnesses बना रहे हैं, इनका रूप साझा किए बिना। Pratik R की पेशकश एक वास्तविक production harness की संरचना और thresholds की एक दुर्लभ disclosure है, चाहे तुम "100+ deployments" वाले दावे पर छूट लगा दो। जिन तीन failure patterns को वे नाम देते हैं — "हम MVP के बाद evaluation जोड़ेंगे", "accuracy काफ़ी है", और "manual spot-checks ठीक हैं" — हर agent बनाने वाली टीम अपने अनुभव से इन्हें पहचानती है। 2% hallucination rate threshold विशेष रूप से भारी है क्योंकि अधिकांश public benchmarks केवल accuracy report करके कहीं अधिक उच्च rates implicitly स्वीकार कर लेते हैं; लेकिन customers के सवाल जवाब देने वाले या regulated workflows चलाने वाले agent के लिए, 2% वह रेखा है जहाँ ship करना defendable होने लगता है।

builders के लिए: पहले चार-category structure (retrieval, generation, agent, production) उठा लो — provenance से अलग, grouping ख़ुद-ब-ख़ुद ठोस है। thresholds को शुरुआत बिंदु के रूप में उठाओ, फिर अपने domain के हिसाब से calibrate करो (healthcare को hallucination 0 के पास चाहिए, customer support 3-5% बर्दाश्त कर सकता है अगर agent escalate करता हो)। LLM-as-judge को सबसे सस्ता signal मानो और borderline cases की periodic human review के साथ जोड़ो — article स्वीकार करता है कि 10K queries/दिन पर manual review टूट जाती है, पर पूरी तरह से इसे address नहीं करता कि LLM-as-judge ठीक उन्हीं cases पर आत्मविश्वास से ग़लत हो सकता है जो manual review पकड़ लेती। cost और latency के लक्ष्य framework का उबाऊ आधा हिस्सा हैं, और production failures असल में वहीं रहते हैं: एक agent जो 1% समय hallucinate करता है पर हर query पर $0.50 लगाता है, वह भी ship नहीं होगा। Pratik R की पेशकश TDS link पर है; इसे एक शुरुआती reference मानो, standard नहीं।