AI Observability: परिभाषा और अर्थ — AI विकी

Production में AI systems के व्यवहार की निगरानी और समझ — inputs, outputs, latency, costs, errors, और quality metrics को real-time में track करना। AI observability application monitoring (Datadog, New Relic) जैसा है लेकिन AI के लिए विशिष्ट: prompt-response pairs को trace करना, quality degradation detect करना, hallucinations की निगरानी, और anomalous behavior पर alert करना।

यह क्यों मायने रखता है

Observability के बिना AI system deploy करना अंधेरे में उड़ने जैसा है। आपको नहीं पता कि मॉडल सामान्य से अधिक hallucinate कर रहा है, latency बढ़ रही है, किसी विशिष्ट प्रकार की query fail हो रही है, या costs बढ़ रहे हैं। AI observability "यह काम करता लगता है" को "हम जानते हैं कि यह काम करता है, और हम जानते हैं कि कब नहीं करता" में बदलता है। यह एक demo और production system के बीच का अंतर है।

गहन अध्ययन

AI के लिए core observability signals: request/response logs (उपयोगकर्ताओं ने क्या पूछा, मॉडल ने क्या जवाब दिया), latency metrics (TTFT, tokens per second, कुल response time), cost tracking (tokens consumed, API spend), quality metrics (user feedback, automated quality scores), error rates (API failures, rate limits, content filter triggers), और safety metrics (refusal rates, flagged content, prompt injection attempts)।

Tracing

जटिल AI applications (RAG pipelines, multi-agent systems) के लिए, tracing एक request को हर step के माध्यम से follow करता है: user query, retrieval results, prompt construction, model call, post-processing, और final response। प्रत्येक step inputs, outputs, latency, और cost के साथ log किया जाता है। जब कुछ गलत होता है, traces आपको pipeline में ठीक उस जगह identify करने देते हैं जहाँ failure हुआ। LangSmith, Langfuse, और Braintrust LLM-विशिष्ट tracing प्रदान करते हैं।

Quality Monitoring

AI observability का सबसे कठिन हिस्सा: output quality degradation का स्वचालित रूप से detect करना। दृष्टिकोणों में शामिल हैं: LLM-as-judge (outputs को score करने के लिए एक मॉडल उपयोग करना), embedding drift detection (यदि outputs का distribution महत्वपूर्ण रूप से बदलता है, तो कुछ गलत हो सकता है), user feedback signals (thumbs up/down, regeneration rates), और regression testing (समय-समय पर queries का golden set चलाना और outputs की baselines से तुलना करना)। कोई भी single दृष्टिकोण सब कुछ नहीं पकड़ता — production systems multiple signals उपयोग करते हैं।

AI Observability

यह क्यों मायने रखता है

गहन अध्ययन

Tracing

Quality Monitoring

संबंधित अवधारणाएँ