AI के लिए core observability signals: request/response logs (उपयोगकर्ताओं ने क्या पूछा, मॉडल ने क्या जवाब दिया), latency metrics (TTFT, tokens per second, कुल response time), cost tracking (tokens consumed, API spend), quality metrics (user feedback, automated quality scores), error rates (API failures, rate limits, content filter triggers), और safety metrics (refusal rates, flagged content, prompt injection attempts)।
जटिल AI applications (RAG pipelines, multi-agent systems) के लिए, tracing एक request को हर step के माध्यम से follow करता है: user query, retrieval results, prompt construction, model call, post-processing, और final response। प्रत्येक step inputs, outputs, latency, और cost के साथ log किया जाता है। जब कुछ गलत होता है, traces आपको pipeline में ठीक उस जगह identify करने देते हैं जहाँ failure हुआ। LangSmith, Langfuse, और Braintrust LLM-विशिष्ट tracing प्रदान करते हैं।
AI observability का सबसे कठिन हिस्सा: output quality degradation का स्वचालित रूप से detect करना। दृष्टिकोणों में शामिल हैं: LLM-as-judge (outputs को score करने के लिए एक मॉडल उपयोग करना), embedding drift detection (यदि outputs का distribution महत्वपूर्ण रूप से बदलता है, तो कुछ गलत हो सकता है), user feedback signals (thumbs up/down, regeneration rates), और regression testing (समय-समय पर queries का golden set चलाना और outputs की baselines से तुलना करना)। कोई भी single दृष्टिकोण सब कुछ नहीं पकड़ता — production systems multiple signals उपयोग करते हैं।