Google ने इस सप्ताह Auto-Diagnose पर एक preprint प्रकाशित किया, एक LLM-आधारित सिस्टम जो integration-test logs पढ़ता है और इंजीनियरों को बताता है कि test क्यों विफल हुआ। प्रेरणा एक आंतरिक Google सर्वेक्षण से आती है: 38.4% integration test विफलताओं का निदान करने में एक घंटे से अधिक लगता है, और 8.9% में एक दिन से अधिक। Unit tests लगभग तुरंत triage हो जाते हैं क्योंकि विफलता-सतह एक single function है; integration tests services, data centers और runtime layers पर फैले होते हैं, इसलिए root-cause विश्लेषण log-archaeology का काम बन जाता है। Auto-Diagnose उस archaeology को एक frontier model पर prompt engineering से automate करता है, fine-tuned model से नहीं।
मॉडल Gemini 2.5 Flash है, temperature 0.1 और top-p 0.8 पर, Google के test corpus पर कोई fine-tuning नहीं। Pipeline test driver logs और data centers के पार component logs इकट्ठा करता है, उन्हें कालक्रमानुसार एक single stream में जोड़ता है, और पूरा मॉडल को submit करता है। प्रति-execution औसत payload: 110,617 input tokens और 5,962 output tokens। Latency p50 56 सेकंड, p90 346 सेकंड। Prompt मॉडल को स्पष्ट चरणों से गुज़ारता है: log sections scan करना, context पढ़ना, failures locate करना, errors summarize करना, फिर निष्कर्ष। महत्वपूर्ण engineering विकल्प एक कठोर anti-hallucination बाधा है जो मॉडल को प्रमाण अपर्याप्त होने पर अनुमान लगाने के बजाय मना करने के लिए मजबूर करती है। वही refusal व्यवहार है जो precision को 90% से ऊपर रखता है, ऐसे क्षेत्र में जहाँ आत्मविश्वास से गलत निदान इंजीनियर के घंटे बर्बाद करता है।
मई 2025 से production संख्याएँ: 224,782 test executions का मूल्यांकन, 52,635 अलग-अलग failing tests का निदान। 39 टीमों की 71 real-world विफलताओं पर manual मूल्यांकन: 90.14% root-cause सटीकता। डेवलपर feedback: समीक्षकों से 84.3% "please fix", डेवलपर प्रतिक्रियाओं में 62.96% उपयोगिता-अनुपात, और 370 आंतरिक Critique tools में उपयोगिता के हिसाब से रैंक 14 (top 3.78%)। उल्लेखनीय है कि क्या गायब है: कोई fine-tuning नहीं, कोई RAG layer नहीं, कोई custom model नहीं। केवल Gemini 2.5 Flash, सावधान prompting के साथ, और एक refusal-on-ambiguity नियम। सिस्टम Google के अत्यधिक log-centralization से भी लाभान्वित होता है, इसलिए आप बस वही prompt AWS CloudWatch पर नहीं भेज सकते और वही संख्याएँ पाने की उम्मीद नहीं कर सकते, क्योंकि prompt मानता है कि logs पहले से services के पार कालक्रमानुसार जुड़े हुए हैं।
यदि आप किसी भी तरह का multi-service CI चलाते हैं, तो यहाँ का playbook प्रतिलिपि-योग्य है लेकिन सस्ता नहीं। मॉडल की लागत नगण्य है (Gemini 2.5 Flash प्रति triage ~116k tokens पर pennies की लागत आती है), इसलिए असली निवेश log plumbing में है: LLM द्वारा कुछ भी देखने से पहले services के पार collect, normalize और join करना। Refusal-on-ambiguity pattern सबसे transferable एकल विचार है। CI में अधिकांश LLM pipelines refusal-tuned नहीं हैं और प्रशंसनीय दिखने वाले कारण hallucinate कर देती हैं, जो silence से बदतर है क्योंकि यह इंजीनियरों को गलत fixes की ओर ले जाती है। यदि आप अपनी test suite के लिए LLM triage wire कर रहे हैं, तो पहले उस pattern को copy करें, फिर मॉडल की चिंता करें। दूसरा सबक यह है कि सावधान prompting के साथ off-the-shelf frontier model अब विशेष tasks पर fine-tuned दृष्टिकोणों के साथ प्रतिस्पर्धी है, बशर्ते आप input को सावधानी से shape करें। यह उस छत को ऊँचा करता है जो छोटी टीमें ML infrastructure के बिना ship कर सकती हैं।
