Señales centrales de observabilidad para IA: logs de request/response (qué preguntaron los usuarios, qué respondió el modelo), métricas de latencia (TTFT, tokens por segundo, tiempo total de respuesta), seguimiento de costos (tokens consumidos, gasto en API), métricas de calidad (feedback de usuarios, puntuaciones de calidad automatizadas), tasas de error (fallos de API, límites de tasa, activaciones de filtros de contenido) y métricas de seguridad (tasas de rechazo, contenido marcado, intentos de prompt injection).
Para aplicaciones de IA complejas (pipelines RAG, sistemas multi-agente), el tracing sigue una petición a través de cada paso: la consulta del usuario, los resultados de recuperación, la construcción del prompt, la llamada al modelo, el post-procesamiento y la respuesta final. Cada paso se registra con entradas, salidas, latencia y costo. Cuando algo sale mal, los traces te permiten identificar exactamente dónde en el pipeline ocurrió el fallo. LangSmith, Langfuse y Braintrust proporcionan tracing específico para LLMs.
La parte más difícil de la observabilidad de IA: detectar automáticamente cuándo la calidad de salida se degrada. Los enfoques incluyen: LLM-como-juez (usar un modelo para puntuar salidas), detección de drift de embeddings (si la distribución de salidas cambia significativamente, algo puede estar mal), señales de feedback de usuarios (pulgar arriba/abajo, tasas de regeneración) y pruebas de regresión (ejecutar periódicamente un conjunto dorado de consultas y comparar salidas con líneas base). Ningún enfoque individual captura todo — los sistemas de producción usan múltiples señales.