使用AI来大规模检测和过滤有害、非法或违反政策的内容。这包括文本分类(仇恨言论、垃圾信息、威胁内容)、图像分析(NSFW检测、CSAM)和视频审核。现代系统结合AI分类器与人工审核,但AI自身生成的内容体量正在引发审核危机—现在你需要用AI来审核AI。
内容审核比人工智能早几十年就已经存在——自Usenet以来,每个在线论坛都有人决定哪些内容保留、哪些删除。变化的是规模。Facebook每天处理超过10亿条帖子。YouTube每分钟接收500小时的视频。TikTok、X、Reddit以及所有拥有用户生成内容的平台都面临同样的数学难题:内容数量之大,人类根本无法全部审查。AI分类器之所以必要,并不是因为它们擅长这项工作,而是因为另一种选择——完全不审核——后果更糟。生成式AI的出现使问题更加复杂。那些让大规模生成文本、图像和视频变得轻而易举的工具,同样让大规模生成有害内容变得轻而易举。你现在需要AI来审核AI本身生成的内容。
大多数生产环境中的审核系统采用分层方法。第一层是自动化分类器:经过训练的机器学习模型,用于标记仇恨言论、暴力、裸露、垃圾信息和自残等类别的内容。这些分类器处理所有内容,且在毫秒内完成。第二层是哈希匹配,通过感知哈希技术将已知有害内容(特别是儿童性虐待材料)与数据库(如NCMEC的数据库)进行匹配——PhotoDNA是最广泛部署的工具。第三层是人工审核,被标记的内容会由人工审核员进行最终决策,处理模棱两可的案例。像Meta和Google这样的大型平台雇佣了数万名人工审核员,其中许多是通过肯尼亚、菲律宾和印度等国家的外包公司招聘的。这些审核员的工作条件和心理负担已被广泛记录,仍然是行业中的严重伦理问题。
内容审核中最难的问题是语境。“我要杀了你”在一种对话中是死亡威胁,在另一种对话中则是友好的玩笑。医疗图像中的伤口在一个健康论坛上是教育内容,而在一个综合兴趣平台上则是血腥暴力。讽刺、反讽和讽刺经常让在简单示例上表现良好的分类器误判。多语言审核增加了另一个维度:大多数AI分类器在英语中表现最佳,在其他语言中显著退化,这意味着平台在那些风险最高的地区往往最难以审核内容。在缅甸种族灭绝事件中,Facebook的审核系统在缅甸语仇恨言论上出现了灾难性失败,公司后来也承认了这一点。教训是:审核质量取决于你最差的语言表现,而不是最好的语言表现。
生成式AI创造了现有系统无法处理的新审核挑战。AI生成的图像可以不使用真实照片生成新的儿童性虐待材料,这意味着哈希匹配数据库对它们毫无用处。合成文本可以被定制以规避关键词过滤和分类器模式,因为生成器可以不断迭代直到输出通过。声音克隆技术实现了大规模的冒充。而AI生成内容(文本、图像、视频)的 sheer volume 威胁到已经处于满负荷运转的审核流程。在防御方面,大型语言模型(LLM)越来越多地被用作审核工具:Anthropic的宪法AI方法、OpenAI的审核端点和Meta的Llama Guard都是利用语言模型以比传统分类器更细致的方式评估内容的示例。这些基于LLM的审核员在处理语境方面表现更好,但运行成本更高,并引入了自身的偏见。
每一次审核决策都是两种错误之间的权衡。过度审核会压制合法言论,对边缘群体、政治异议和关于性健康或毒品政策等敏感但重要话题的讨论造成不成比例的影响。审核不足则允许真正的伤害:骚扰活动、极端主义管道、欺诈和非法内容的传播。没有任何系统能对所有人做到完美平衡,而“正确”的平衡取决于因国家、社区和个人而异的文化价值观。在全球运营的平台必须在数百个法律标准不同的司法管辖区做出这些决策,而它们做出的决策——通常编码在分类器训练数据和阈值设置中——对言论自由的实际影响比大多数法律更大。构建这些系统的人,无论他们是否意图如此,都在文明尺度上做出编辑和伦理判断。