Signaux d'observabilité fondamentaux pour l'IA : logs de requêtes/réponses (qu'ont demandé les utilisateurs, qu'a répondu le modèle), métriques de latence (TTFT, tokens par seconde, temps de réponse total), suivi des coûts (tokens consommés, dépenses API), métriques de qualité (retours utilisateurs, scores de qualité automatisés), taux d'erreurs (échecs API, limites de débit, déclenchements de filtres de contenu), et métriques de sécurité (taux de refus, contenu signalé, tentatives d'injection de prompt).
Pour les applications IA complexes (pipelines RAG, systèmes multi-agents), le traçage suit une requête à travers chaque étape : la requête utilisateur, les résultats de récupération, la construction du prompt, l'appel au modèle, le post-traitement et la réponse finale. Chaque étape est loggée avec ses entrées, sorties, latence et coût. Quand quelque chose va mal, les traces te permettent d'identifier exactement où dans le pipeline l'échec s'est produit. LangSmith, Langfuse et Braintrust fournissent du traçage spécifique aux LLM.
La partie la plus difficile de l'observabilité IA : détecter automatiquement quand la qualité des sorties se dégrade. Les approches incluent : LLM-as-judge (utiliser un modèle pour noter les sorties), détection de dérive des embeddings (si la distribution des sorties change significativement, quelque chose ne va peut-être pas), signaux de feedback utilisateur (pouces en haut/en bas, taux de régénération), et tests de régression (exécuter périodiquement un ensemble doré de requêtes et comparer les sorties aux références). Aucune approche seule ne capture tout — les systèmes de production utilisent des signaux multiples.