AI可观测性：定义与含义 — AI 维基

监控和理解生产环境中AI系统的行为——实时追踪输入、输出、延迟、成本、错误和质量指标。AI可观测性就像应用监控（Datadog、New Relic），但专门针对AI：追踪提示-响应对、检测质量退化、监控幻觉，以及对异常行为发出警报。

为什么重要

部署AI系统而没有可观测性就像盲目飞行。你不知道模型是否比平时产出更多幻觉，延迟是否在攀升，某种特定类型的查询是否在失败，或成本是否在飙升。AI可观测性将“看起来能用”变成“我们知道它能用，也知道什么时候不能用”。这是演示和生产系统的区别。

深度解析

AI的核心可观测性信号：请求/响应日志（用户问了什么，模型回复了什么）、延迟指标（TTFT、每秒token数、总响应时间）、成本追踪（消耗的token数、API支出）、质量指标（用户反馈、自动化质量评分）、错误率（API失败、速率限制、内容过滤器触发）和安全指标（拒绝率、标记内容、提示注入尝试）。

追踪

对于复杂的AI应用（RAG管道、多智能体系统），追踪跟随一个请求经过每个步骤：用户查询、检索结果、提示构建、模型调用、后处理和最终响应。每个步骤都记录输入、输出、延迟和成本。当出现问题时，追踪让你能精确定位管道中故障发生的位置。LangSmith、Langfuse和Braintrust提供LLM特定的追踪。

质量监控

AI可观测性中最困难的部分：自动检测输出质量何时退化。方法包括：LLM-as-judge（使用模型对输出评分）、嵌入漂移检测（如果输出的分布发生显著变化，可能有问题）、用户反馈信号（点赞/点踩、重新生成率）和回归测试（定期运行黄金标准查询集并将输出与基线比较）。没有任何单一方法能捕获所有问题——生产系统使用多种信号。