Google研究人员记录了大语言模型如何殖民内容审核的每个阶段,创建了他们称之为"滥用检测生命周期"的系统,其中LLM生成合成训练标签、分类有害内容、审查申诉并审计自身系统的偏见。研究发现像GPT-4这样的模型在零样本设置下在毒性基准测试中达到0.75以上的F1分数——在没有fine-tuning的情况下与人类标注员相匹配。Meta的Llama Guard系列体现了专业化方法,同时处理输入输出保护和零样本政策适应,新的安全规则可以直接在prompts中传递。
这标志着从早期基于BERT的系统的根本转变,那些系统可以捕获明确的侮辱但在讽刺、编码语言和文化细节上失败。讽刺是明显的:我们正在使用我们试图审核的同一技术来进行审核。一项引用的研究使用三个LLM作为独立标注员生成超过48,000个合成媒体偏见标签,在该合成输出上训练的分类器表现与专家标记数据一样好。但这创造了一个封闭的反馈循环,模型偏见会复合——instruction-tuned模型由于不平衡训练而低估滥用,而RLHF对齐模型因过度谨慎而高估。
研究揭示了当前AI治理中的关键盲点:我们建立的系统中LLM在最少人类监督下自我监管。不同模型携带不同的政治倾向,这些倾向在它们生成的标签中浮现,然而平台越来越依赖人类标注无法匹配规模的合成数据。检索增强方法仅使用2.2%的可用示例就达到了GPT-4的少样本准确性,削减了推理成本但引发了关于数据多样性和边缘案例覆盖的问题。
对于构建审核系统的开发者,这项研究表明混合方法仍然必要。纯LLM管道可能比人类标注扩展性更好,但它们需要强大的验证循环和多样化的模型集成来防止偏见放大。RLHF模型中的过度拒绝问题特别影响生产系统,其中假阳性可能使合法言论沉默。
