幻覺不是一個會在下一個版本中修復的錯誤——它是語言模型運作方式的結構性後果。模型透過預測給定之前所有內容後最有可能的下一個 token 來生成文字。它沒有內部的事實資料庫,無法將主張與現實進行驗證,也沒有真理與虛假的概念。當它產生一個聽起來合理但錯誤的陳述時,它正在做它被訓練去做的事情:生成流暢且符合上下文的文字。問題在於「符合上下文」與「事實正確」並非同一回事,而模型沒有區分兩者的機制。
最危險的幻覺是那些隱晦的。一個模型編造一個完全虛構的人物很容易被發現。但如果模型將一個真實的引語歸因於錯誤的人、引用一個真實的論文但年份錯誤,或生成一個看似合理但實際不存在的 API 端點——這些就更難察覺。開發人員已經以痛苦的方式學到了這一點。有知名案例顯示律師提交了由 AI 生成的法律簡報,其中包含格式正確但從未存在的虛構案例引用。程式碼幻覺同樣常見:模型可能會建議導入一個在三個版本前已更名的函式庫函數,或引用一個與真實函式簽名幾乎相同但不完全匹配的方法。
多個因素會影響幻覺的發生機率。較高的溫度設定會增加隨機性,這可能提高事實性問題的幻覺率。詢問訓練資料中出現頻率較低的偏門主題,比詢問廣泛涵蓋的主題更容易產生幻覺。更長、更複雜的輸出有更多出錯的機會。而且當模型在壓力下被迫產生答案時,特別容易產生幻覺——如果你提出一個問題而模型不知道答案,其訓練會傾向於生成一個自信的回應,而不是說「我不確定」。這就是為什麼明確授權模型說「我不知道」會顯著降低幻覺率。
產業界已發展出多層次的防禦策略。Grounding 和 RAG 提供模型可以參考的外部來源,而不是依賴參數記憶。較低的溫度設定會減少事實性任務的隨機性。系統提示可以指示模型引用來源並標記不確定性。後生成檢查——將輸出透過第二個模型或事實檢查流程進行驗證——能在到達用戶前捕捉一些錯誤。Anthropic、OpenAI 和 Google 都已大力投資訓練模型,使其對自身不確定性的校準更精準,因此更可能採取保留或拒絕的態度,而不是編造資訊。但這些防禦措施都不是完美的,將任何 AI 輸出視為無需驗證的絕對事實,在任何重要領域中仍然存在風險。
有一個值得澄清的誤解:幻覺率在模型世代之間已大幅改善,有些人推測這意味著問題將很快「被解決」。這很可能不會,至少不是完全解決,因為架構本身沒有事實驗證機制。正在改善的是校準——現代模型產生幻覺的頻率較低,且更擅長表達不確定性。但「較少」不代表「從不」,在醫療、法律或金融等高風險領域中,即使事實性主張的 1% 幻覺率,在沒有人工驗證的情況下也是無法接受的。實際的結論是:設計系統時應假設模型偶爾會出錯,並在工作流程中加入驗證機制,而不是指望下一個模型更新會使其變得無需驗證。