Zubnet AI學習Wiki › AI Observability
基礎設施

AI Observability

別名:LLM 監控、AI 追蹤、LLMOps
監控和理解 AI 系統在生產環境中的行為——即時追蹤輸入、輸出、延遲、成本、錯誤和品質指標。AI 可觀測性就像應用程式監控(Datadog、New Relic),但專門針對 AI:追蹤提示-回應對、偵測品質下降、監控幻覺,以及對異常行為發出警報。

為什麼重要

在沒有可觀測性的情況下部署 AI 系統就像盲飛。你不知道模型是否比平時更多地產生幻覺、延遲是否在攀升、特定類型的查詢是否失敗,或者成本是否在飆升。AI 可觀測性將「它似乎能用」變成「我們知道它能用,也知道什麼時候不行。」這是演示和生產系統之間的差別。

深度解析

AI 的核心可觀測性信號:請求/回應日誌(使用者問了什麼,模型回應了什麼)、延遲指標(TTFT、每秒 token 數、總回應時間)、成本追蹤(消耗的 token 數、API 支出)、品質指標(使用者回饋、自動化品質分數)、錯誤率(API 失敗、速率限制、內容過濾觸發),以及安全指標(拒絕率、被標記的內容、提示注入嘗試)。

追蹤

對於複雜的 AI 應用(RAG 管線、多代理系統),追蹤跟隨請求通過每個步驟:使用者查詢、檢索結果、提示建構、模型呼叫、後處理和最終回應。每個步驟都記錄輸入、輸出、延遲和成本。當出現問題時,追蹤讓你精確辨識管線中失敗發生的位置。LangSmith、Langfuse 和 Braintrust 提供 LLM 專用的追蹤功能。

品質監控

AI 可觀測性中最困難的部分:自動偵測輸出品質何時下降。方法包括:LLM 作為裁判(使用模型對輸出評分)、嵌入漂移偵測(如果輸出的分布顯著變化,可能有問題)、使用者回饋信號(讚/踩、重新生成率),以及迴歸測試(定期運行一組黃金查詢並將輸出與基線比較)。沒有任何單一方法能捕捉一切——生產系統使用多種信號。

相關概念

← 所有術語
ESC
Start typing to search...