Zubnet AI学习Wiki › AI可观测性
基础设施

AI可观测性

别名:LLM监控、AI追踪、LLMOps
监控和理解生产环境中AI系统的行为——实时追踪输入、输出、延迟、成本、错误和质量指标。AI可观测性就像应用监控(Datadog、New Relic),但专门针对AI:追踪提示-响应对、检测质量退化、监控幻觉,以及对异常行为发出警报。

为什么重要

部署AI系统而没有可观测性就像盲目飞行。你不知道模型是否比平时产出更多幻觉,延迟是否在攀升,某种特定类型的查询是否在失败,或成本是否在飙升。AI可观测性将“看起来能用”变成“我们知道它能用,也知道什么时候不能用”。这是演示和生产系统的区别。

深度解析

AI的核心可观测性信号:请求/响应日志(用户问了什么,模型回复了什么)、延迟指标(TTFT、每秒token数、总响应时间)、成本追踪(消耗的token数、API支出)、质量指标(用户反馈、自动化质量评分)、错误率(API失败、速率限制、内容过滤器触发)和安全指标(拒绝率、标记内容、提示注入尝试)。

追踪

对于复杂的AI应用(RAG管道、多智能体系统),追踪跟随一个请求经过每个步骤:用户查询、检索结果、提示构建、模型调用、后处理和最终响应。每个步骤都记录输入、输出、延迟和成本。当出现问题时,追踪让你能精确定位管道中故障发生的位置。LangSmith、Langfuse和Braintrust提供LLM特定的追踪。

质量监控

AI可观测性中最困难的部分:自动检测输出质量何时退化。方法包括:LLM-as-judge(使用模型对输出评分)、嵌入漂移检测(如果输出的分布发生显著变化,可能有问题)、用户反馈信号(点赞/点踩、重新生成率)和回归测试(定期运行黄金标准查询集并将输出与基线比较)。没有任何单一方法能捕获所有问题——生产系统使用多种信号。

← 所有术语