AI的核心可观测性信号:请求/响应日志(用户问了什么,模型回复了什么)、延迟指标(TTFT、每秒token数、总响应时间)、成本追踪(消耗的token数、API支出)、质量指标(用户反馈、自动化质量评分)、错误率(API失败、速率限制、内容过滤器触发)和安全指标(拒绝率、标记内容、提示注入尝试)。
对于复杂的AI应用(RAG管道、多智能体系统),追踪跟随一个请求经过每个步骤:用户查询、检索结果、提示构建、模型调用、后处理和最终响应。每个步骤都记录输入、输出、延迟和成本。当出现问题时,追踪让你能精确定位管道中故障发生的位置。LangSmith、Langfuse和Braintrust提供LLM特定的追踪。
AI可观测性中最困难的部分:自动检测输出质量何时退化。方法包括:LLM-as-judge(使用模型对输出评分)、嵌入漂移检测(如果输出的分布发生显著变化,可能有问题)、用户反馈信号(点赞/点踩、重新生成率)和回归测试(定期运行黄金标准查询集并将输出与基线比较)。没有任何单一方法能捕获所有问题——生产系统使用多种信号。