Sinais centrais de observabilidade para IA: logs de requisição/resposta (o que os usuários perguntaram, o que o modelo respondeu), métricas de latência (TTFT, tokens por segundo, tempo total de resposta), rastreamento de custos (tokens consumidos, gastos com API), métricas de qualidade (feedback de usuários, pontuações automatizadas de qualidade), taxas de erro (falhas de API, limites de taxa, disparos de filtro de conteúdo) e métricas de segurança (taxas de recusa, conteúdo sinalizado, tentativas de injeção de prompt).
Para aplicações de IA complexas (pipelines RAG, sistemas multi-agente), tracing segue uma requisição por cada etapa: a consulta do usuário, os resultados de recuperação, a construção do prompt, a chamada ao modelo, o pós-processamento e a resposta final. Cada etapa é registrada com entradas, saídas, latência e custo. Quando algo dá errado, traces permitem identificar exatamente onde no pipeline a falha ocorreu. LangSmith, Langfuse e Braintrust fornecem tracing específico para LLMs.
A parte mais difícil da observabilidade de IA: detectar automaticamente quando a qualidade da saída degrada. Abordagens incluem: LLM-as-judge (usar um modelo para pontuar saídas), detecção de drift de embedding (se a distribuição de saídas muda significativamente, algo pode estar errado), sinais de feedback de usuários (positivo/negativo, taxas de regeneração) e testes de regressão (executar periodicamente um conjunto dourado de consultas e comparar saídas com baselines). Nenhuma abordagem única captura tudo — sistemas de produção usam múltiplos sinais.