AI Observability（AI 可觀測性）：定義與含義 — AI 維基

監控和理解 AI 系統在生產環境中的行為——即時追蹤輸入、輸出、延遲、成本、錯誤和品質指標。AI 可觀測性就像應用程式監控（Datadog、New Relic），但專門針對 AI：追蹤提示-回應對、偵測品質下降、監控幻覺，以及對異常行為發出警報。

為什麼重要

在沒有可觀測性的情況下部署 AI 系統就像盲飛。你不知道模型是否比平時更多地產生幻覺、延遲是否在攀升、特定類型的查詢是否失敗，或者成本是否在飆升。AI 可觀測性將「它似乎能用」變成「我們知道它能用，也知道什麼時候不行。」這是演示和生產系統之間的差別。

深度解析

AI 的核心可觀測性信號：請求/回應日誌（使用者問了什麼，模型回應了什麼）、延遲指標（TTFT、每秒 token 數、總回應時間）、成本追蹤（消耗的 token 數、API 支出）、品質指標（使用者回饋、自動化品質分數）、錯誤率（API 失敗、速率限制、內容過濾觸發），以及安全指標（拒絕率、被標記的內容、提示注入嘗試）。

追蹤

對於複雜的 AI 應用（RAG 管線、多代理系統），追蹤跟隨請求通過每個步驟：使用者查詢、檢索結果、提示建構、模型呼叫、後處理和最終回應。每個步驟都記錄輸入、輸出、延遲和成本。當出現問題時，追蹤讓你精確辨識管線中失敗發生的位置。LangSmith、Langfuse 和 Braintrust 提供 LLM 專用的追蹤功能。

品質監控

AI 可觀測性中最困難的部分：自動偵測輸出品質何時下降。方法包括：LLM 作為裁判（使用模型對輸出評分）、嵌入漂移偵測（如果輸出的分布顯著變化，可能有問題）、使用者回饋信號（讚/踩、重新生成率），以及迴歸測試（定期運行一組黃金查詢並將輸出與基線比較）。沒有任何單一方法能捕捉一切——生產系統使用多種信號。

AI Observability

為什麼重要

深度解析

追蹤

品質監控

相關概念