由 UT Austin 與 Microsoft 共同進行、Help Net Security 於 4 月 29 日報導的一項研究,觀察了 15 位學術研究者在使用商用 AI 工具 —— Research Rabbit、Elicit AI、ChatGPT —— 進行文獻綜述、綜合寫作與構思時的行為。研究者們一邊工作一邊出聲思考,其全程被記錄,逐字稿揭示出他們圍繞兩個未解問題所自行搭建的變通做法:prompt 機密性(把未發表工作發往一組資料處理方式不透明的工具)與輸出可驗證性(證明一條生成出來的引用真正來自哪裡)。樣本不大,但其行為模式與企業安全團隊當下處理員工使用商用 LLM 時所遇問題完全對應。

兩種被命名的失敗模式提供了有用的詞彙。Attribution displacement 指的是 LLM 把準確資訊綁定到錯誤來源 —— 事實是真的,引用卻被錯誤歸屬。Synthetic blending 指的是 LLM 把虛構論斷與合法引用混在同一段輸出之中,使得逐項核查變慢且容易漏檢。一位參與者描述自己曾就一條不存在的引用對 ChatGPT 提出質疑;模型先道歉,然後又給出了更多虛構的參考文獻。15 位參與者中有 7 位將幻覺視為「透明度失敗」而非孤立的事實錯誤 —— 模型並未給出任何訊號,告訴使用者輸出的哪些部分是有依據的、哪些是被插補出來的。在機密性方面,有兩位參與者直接表達對訓練重用與儲存不透明的擔憂(「不知道我有多少個人資料被存了下來、存在哪裡、誰能看到」);而其底層行為 —— 把未發表的研究問題、草稿假設、專屬領域知識貼進商用 AI 工具 —— 在樣本中普遍存在,與是否表達過擔憂無關。

這是一個可辨識的模式。研究者就像企業員工一樣,會把敏感內容貼進商用 AI 工具,因為這些工具好用,而自託管替代品的成本高。研究把這描述為「制度問責問題」—— 沒有一個可見的管道,可以把 AI 廠商按其所蒐集、儲存或再利用的輸入承擔責任。同樣的缺口也存在於公司之中:員工常規性地把內部文件、程式碼與策略計畫貼進商用 LLM,而沒有任何可執行的資料處理保障。兩個被命名的失敗模式 —— attribution displacement 與 synthetic blending —— 也可推廣到學術研究之外。任何會產出引用或被歸屬來源的論斷的系統,都會同時產生這兩類失敗;任何不同時偵測這兩者的驗證流水線都會讓一部分漏過去。

對 builders 而言,三件具體事情。第一,如果你的產品會產出被歸屬來源的論斷(RAG 輸出、被摘要過的搜尋結果、AI 撰寫的報告),把對這兩種失敗模式的檢查內建進來。Attribution displacement 可透過重新查詢所引來源並校驗該具體論斷是否被支持來偵測;synthetic blending 則可透過在交付輸出之前,將每一條被引用的參考與一份權威資料庫做 match 來偵測。多數生產級 RAG 系統偵測第一種、跳過第二種。第二,prompt 機密性這條線將牽動企業採購決策。如果你向企業出售 AI 工具,「你的prompt 不會被用於訓練」必須是一條由稽核支撐的合約條款,而不是行銷話術裡的一句話。UT Austin 這份研究把買方將用以施壓的關切正式化了。第三,「透明度失敗」是處理幻覺問題的正確框架。使用者要的不只是更低的幻覺率 —— 他們要系統標註出哪些輸出是有依據的、哪些是被插補出來的。這種「來源溯源 UI」在幾乎所有面向消費者的 AI 產品裡都還缺位,而它正是下一輪的差異化戰場。