偏見：定義與含義 — AI 維基

AI輸出中系統性模式—反映或放大訓練數據中存在的社會偏見。偏見可能出現在文本生成、圖像生成、招聘工具，以及模型做出影響人們不同的決定的任何地方。

為什麼重要

如果訓練資料中提到護士是女性、工程師是男性，模型將會延續這種觀念。偏見並不總是顯而易見——它藏在詞語關聯、預設假設以及哪些人被代表之中。

深度解析

AI系統中的偏見來自多個來源，而訓練數據僅是其中最明顯的一個。是的，如果你的語料庫過度代表某些族群或觀點，模型會反映這種現象。但偏見也會透過標註（人類評估訓練範例時會帶入自己的假設）、評估（測試英語流利度但不測試約魯巴語的基準）、部署情境（基於公司歷史上偏頗的聘僱數據訓練的履歷篩選器），甚至損失函數本身（優化參與度可能放大煽動性或分裂性內容）而產生。理解這些不同的偏見來源很重要，因為每種來源都需要不同的緩衝策略。

衡量隱藏的偏見

測量和減少偏見的技術方法已大幅成熟。早在2017年，WEAT（Word Embedding Association Test）等字詞嵌入測試就顯示，word2vec和GloVe嵌入會將「男性」與「職業」、「女性」與「家庭」關聯，這種現象與心理學中的隱含聯結測驗（Implicit Association Test）相呼應。對於現代的大型語言模型（LLM），評估更加困難。研究人員使用如BBQ（QA偏見基準）、WinoBias和RealToxicityPrompts等基準來探測刻板印象，但這些方法只能捕捉到人們預設要測試的偏見。紅隊測試（red teaming）和對抗評估填補了一些缺口，但潛在偏見的長尾問題實際上是無限的。

過度修正的陷阱

去偏見技術伴隨著實質的權衡，實踐者需要理解這一點。數據層面的干預措施——重新平衡、增強代表性不足的群體、過濾有毒內容——可以幫助減少偏見，但也可能導致抹除合法的文化背景或產生人工過度淨化的分佈。模型層面的干預措施，如對特定偏見偏好對進行對比學習或DPO（Direct Preference Optimization），可以減少刻板印象，但有時會過度修正，產生令人尷尬的迴避性輸出，或拒絕承認在相關情境下真實的統計差異（例如醫療模型應了解地中海貧血的盛行率因血統而異）。2024年初Google Gemini圖像生成爭議——生成具有多樣族群的納粹士兵——就是過度修正失敗的鮮明例子。目標不是讓模型假裝差異不存在；而是防止模型根據群體成員身份對個人做出不公平的假設。

超越英語

偏見中最重要卻最少被討論的形式是語言和文化偏見。大多數前沿模型主要以英語文本訓練，內建西方文化假設。如果你問模型關於「正常」家庭結構、職業禮儀，甚至什麼構成「禮貌」對話，答案往往偏向美國或西歐的觀點。這影響了數十億非英語使用者與這些系統的互動。多語言模型如BLOOM和Aya已有所進步，但英語與資源較少語言之間的表現差距仍然顯著，這不僅僅是流利度的問題——更是模型是否理解這些語言的文化背景。

管理，而非消除

對於基於這些模型進行開發的工程師來說，實際情況是偏見是需要管理的，而非可以消除的。你需要根據特定應用場景選擇評估標準，針對這些標準進行測量，並做出有意識的取捨決策。創意寫作助手和聘僱工具的偏見特徵與風險截然不同。最糟糕的做法是假設基礎模型「已經過去偏見處理」而完全跳過評估——每個部署情境都會引入新的偏見導致損害的機會，負責任的做法是在用戶發現前主動測試。

偏見