Zubnet AI学习Wiki › 偏见
安全

偏见

AI输出中反映或放大训练数据中社会偏见的系统性模式。偏见可能出现在文本生成、图像创作、招聘工具等任何模型做出影响人们差异性决策的场景中。

为什么重要

如果训练数据中护士是女性、工程师是男性,模型就会延续这种观念。偏见并不总是显而易见——它隐藏在单词关联、默认假设以及被代表的人群中。

深度解析

AI系统中的偏见来源于多个方面,训练数据只是最明显的一个。是的,如果你的语料库过度代表某些群体或观点,模型会反映这一点。但偏见也会通过标注(人类对训练样本的评分会带入自己的假设)、评估(测试英语流利度但不测试约鲁巴语的基准测试)、部署环境(基于公司历史上存在偏见的招聘数据训练的简历筛选器)甚至损失函数本身(优化参与度可能放大煽动性或分裂性内容)进入模型。理解这些不同的偏见来源很重要,因为每种都需要不同的缓解策略。

测量隐藏的偏见

测量和减少偏见的技术方法已经取得了显著进展。早在2017年,像WEAT(词嵌入关联测试)这样的词嵌入测试就表明,word2vec和GloVe嵌入将“男性”与“职业”、“女性”与“家庭”关联的方式,与心理学中的隐性联想测试相似。对于现代的LLM,评估更加困难。研究人员使用BBQ(问答偏见基准测试)、WinoBias和RealToxicityPrompts等基准测试来探测刻板印象,但这些方法只能捕捉到人们想到要测试的偏见。红队测试和对抗性评估填补了一些空白,但可能存在的偏见长尾是无限的。

过度纠正陷阱

去偏技术伴随着实际的权衡,从业者需要理解这一点。数据层面的干预措施——重新平衡、增加代表性不足群体的数据、过滤有毒内容——可能会有帮助,但也可能抹去合法的文化背景或创造出人为净化的分布。模型层面的干预措施,如对比学习或在特定偏见偏好对上进行DPO,可以减少刻板印象,但有时会过度纠正,产生令人尴尬的回避性输出,或在相关情况下拒绝承认真实统计差异(例如,医疗模型应知道镰状细胞贫血的患病率因种族而异)。2024年初,谷歌Gemini图像生成争议——生成具有不同种族特征的纳粹士兵——就是过度纠正失败的生动例子。目标不是让模型假装差异不存在,而是防止它们基于群体成员身份对个体做出不公平的假设。

超越英语

偏见最重要但最常被忽视的形式之一是语言和文化偏见。大多数前沿模型主要在英语文本上进行训练,内置了西方文化假设。如果你问模型关于“正常”家庭结构、职业礼仪,甚至什么是“礼貌”对话的问题,得到的答案往往会偏向美国或西欧。这影响了数十亿非英语使用者,他们与这些系统互动。像BLOOM和Aya这样的多语言模型已经取得进展,但英语与低资源语言之间的性能差距仍然显著,这不仅仅是流利度的问题——更是模型是否理解这些语言中的文化背景。

管理而非消除

对于在这些模型上构建开发者的实际状况是,偏见是需要管理的东西,而不是可以消除的东西。你选择与具体使用案例相关的评估标准,根据这些标准进行测量,并对可接受的权衡做出明确决策。创意写作助手和招聘工具具有非常不同的偏见特征和非常不同的风险。最糟糕的做法是假设基础模型“已经去偏”并完全跳过评估——每个部署环境都会引入新的偏见导致伤害的机会,负责任的做法是在用户发现之前进行测试。

相关概念

← 所有术语
← 基准测试 Black Forest Labs →
ESC