Zubnet AI學習Wiki › 偏見
安全

偏見

AI輸出中系統性模式—反映或放大訓練數據中存在的社會偏見。偏見可能出現在文本生成、圖像生成、招聘工具,以及模型做出影響人們不同的決定的任何地方。

為什麼重要

如果訓練資料中提到護士是女性、工程師是男性,模型將會延續這種觀念。偏見並不總是顯而易見——它藏在詞語關聯、預設假設以及哪些人被代表之中。

深度解析

AI系統中的偏見來自多個來源,而訓練數據僅是其中最明顯的一個。是的,如果你的語料庫過度代表某些族群或觀點,模型會反映這種現象。但偏見也會透過標註(人類評估訓練範例時會帶入自己的假設)、評估(測試英語流利度但不測試約魯巴語的基準)、部署情境(基於公司歷史上偏頗的聘僱數據訓練的履歷篩選器),甚至損失函數本身(優化參與度可能放大煽動性或分裂性內容)而產生。理解這些不同的偏見來源很重要,因為每種來源都需要不同的緩衝策略。

衡量隱藏的偏見

測量和減少偏見的技術方法已大幅成熟。早在2017年,WEAT(Word Embedding Association Test)等字詞嵌入測試就顯示,word2vec和GloVe嵌入會將「男性」與「職業」、「女性」與「家庭」關聯,這種現象與心理學中的隱含聯結測驗(Implicit Association Test)相呼應。對於現代的大型語言模型(LLM),評估更加困難。研究人員使用如BBQ(QA偏見基準)、WinoBias和RealToxicityPrompts等基準來探測刻板印象,但這些方法只能捕捉到人們預設要測試的偏見。紅隊測試(red teaming)和對抗評估填補了一些缺口,但潛在偏見的長尾問題實際上是無限的。

過度修正的陷阱

去偏見技術伴隨著實質的權衡,實踐者需要理解這一點。數據層面的干預措施——重新平衡、增強代表性不足的群體、過濾有毒內容——可以幫助減少偏見,但也可能導致抹除合法的文化背景或產生人工過度淨化的分佈。模型層面的干預措施,如對特定偏見偏好對進行對比學習或DPO(Direct Preference Optimization),可以減少刻板印象,但有時會過度修正,產生令人尷尬的迴避性輸出,或拒絕承認在相關情境下真實的統計差異(例如醫療模型應了解地中海貧血的盛行率因血統而異)。2024年初Google Gemini圖像生成爭議——生成具有多樣族群的納粹士兵——就是過度修正失敗的鮮明例子。目標不是讓模型假裝差異不存在;而是防止模型根據群體成員身份對個人做出不公平的假設。

超越英語

偏見中最重要卻最少被討論的形式是語言和文化偏見。大多數前沿模型主要以英語文本訓練,內建西方文化假設。如果你問模型關於「正常」家庭結構、職業禮儀,甚至什麼構成「禮貌」對話,答案往往偏向美國或西歐的觀點。這影響了數十億非英語使用者與這些系統的互動。多語言模型如BLOOM和Aya已有所進步,但英語與資源較少語言之間的表現差距仍然顯著,這不僅僅是流利度的問題——更是模型是否理解這些語言的文化背景。

管理,而非消除

對於基於這些模型進行開發的工程師來說,實際情況是偏見是需要管理的,而非可以消除的。你需要根據特定應用場景選擇評估標準,針對這些標準進行測量,並做出有意識的取捨決策。創意寫作助手和聘僱工具的偏見特徵與風險截然不同。最糟糕的做法是假設基礎模型「已經過去偏見處理」而完全跳過評估——每個部署情境都會引入新的偏見導致損害的機會,負責任的做法是在用戶發現前主動測試。

相關概念

← 所有術語
← 基準測試 Black Forest Labs →
ESC