在Edinburgh接受訓練的IR研究員Sarah Chen強調了一個名為"Bits over Random"(BoR)的新指標如何暴露了我們衡量RAG系統方式中的關鍵缺陷。傳統指標如Success@K和召回率專注於尋找相關資訊,而BoR衡量檢索是否真正具有選擇性,還是只是用更多材料填充上下文窗口。研究顯示,系統可以達到99%的成功率,同時表現僅比隨機選擇稍好——這種現象解釋了為什麼許多生產環境中的RAG系統在儀表板上看起來很好,但產生分散、不可靠的智能體行為。

這很重要,因為大多數RAG團隊都在為錯誤的事情進行優化。經典的IR思維——我們找到了相關塊嗎,召回率提高了嗎——對於人類過濾結果的搜尋引擎來說效果很好。但LLM智能體必須處理你給它們的所有內容,使得上下文污染成為真正的效能殺手。當你通過檢索更多塊來提高召回率時,你經常會拖拽弱相關的材料,這會稀釋模型的注意力並降低推理品質。

特別引人注目的是,這項研究驗證了許多從業者感受到但無法表達的東西:在紙面上看起來出色的檢索在生產環境中可能表現得像噪音。BoR指標為開發者通過直覺除錯的東西提供了數學框架——更多的上下文並不總是更好的上下文。

對於開發者來說,這項研究建議重新思考你的評估堆疊。與其只衡量是否找到了相關資訊,不如開始衡量有多少不相關材料伴隨而來。將檢索選擇性視為與傳統召回測量並列的一流指標。你的智能體會以更專注、更可靠的行為感謝你——即使你的儀表板數字看起來不那麼令人印象深刻。