AI 的核心可觀測性信號:請求/回應日誌(使用者問了什麼,模型回應了什麼)、延遲指標(TTFT、每秒 token 數、總回應時間)、成本追蹤(消耗的 token 數、API 支出)、品質指標(使用者回饋、自動化品質分數)、錯誤率(API 失敗、速率限制、內容過濾觸發),以及安全指標(拒絕率、被標記的內容、提示注入嘗試)。
對於複雜的 AI 應用(RAG 管線、多代理系統),追蹤跟隨請求通過每個步驟:使用者查詢、檢索結果、提示建構、模型呼叫、後處理和最終回應。每個步驟都記錄輸入、輸出、延遲和成本。當出現問題時,追蹤讓你精確辨識管線中失敗發生的位置。LangSmith、Langfuse 和 Braintrust 提供 LLM 專用的追蹤功能。
AI 可觀測性中最困難的部分:自動偵測輸出品質何時下降。方法包括:LLM 作為裁判(使用模型對輸出評分)、嵌入漂移偵測(如果輸出的分布顯著變化,可能有問題)、使用者回饋信號(讚/踩、重新生成率),以及迴歸測試(定期運行一組黃金查詢並將輸出與基線比較)。沒有任何單一方法能捕捉一切——生產系統使用多種信號。