Wired 于 4 月 28 日报道,Meta 的都柏林承包商 Covalen —— 一家为 Meta 做 AI 训练与内容审核的公司 —— 已通知超过 700 名员工其岗位面临风险。其中约 500 人是数据标注员 —— 他们的工作是对照公司关于危险与非法内容的规则,核查 Meta AI 模型生成的素材。员工是周一通过一次简短的视频会议被通知的,且不得提问。这是 Covalen 五个月内的第二轮裁员;加上 11 月的那一轮(约 400 人,以工人罢工告终),Covalen 都柏林的员工人数即将被砍去近一半。Meta 上周宣布全公司每十人裁一人,并另行宣布 AI 支出将几近翻倍。

正在被砍掉的工作,是大多数 AI 实验室所谓的对抗性标注与 red-teaming。工人们设计精心的 prompts 试图绕过模型护栏 —— 诱使模型生成 CSAM、自杀内容或其他被禁止的输出,然后记录模型在哪里失守。一名工人对 Wired 这样描述:"你整天假装自己是恋童癖。"另一名说:"这本质上就是在训练 AI 来接管我们的工作。我们做的每一个动作,都是给 AI 当作完美决策来模仿。"这就是 Meta 正在做的取舍:由人来承担 red-teaming 的心理成本,他们的判断被蒸馏进自动安全分类器,然后这些分类器再把他们替换掉。合同里六个月的冷却条款 —— 被裁员工不得申请 Meta 的竞争对手供应商 —— 又添了一层劳工权利问题,Communications Workers' Union 正在就此交涉。

两点意味值得注意。第一,安全问题。如果 Meta 一边砍掉对抗性标注的人力,一边将 AI 支出几近翻倍,那它的赌注是:自动化 red-teaming 与"constitutional AI"方法已经足够好,能在最难的几类(CSAM、自残、越狱)上取代人类。这个赌注不只是 Meta 的;OpenAI、Anthropic 与 Google 也都在用类似的自动化与人工 red-teaming 混合策略。但自动 red-teaming 究竟能不能抓住最对抗性的人类 prompts —— 这是一个开放的经验问题,而失败模式不对称:漏掉一次 CSAM 越狱不是单纯的指标瑕疵,而是真实世界的伤害。第二,劳工模式。在 AI 开发中做最痛苦的心理工作的人 —— 整天盯着互联网最糟内容的人 —— 同时也最不稳定。他们是承包工,不是正式员工。他们位于低成本地区。他们的合同里有冷却条款。AI 安全标注的经济学今天看起来,和十年前社交媒体内容审核的经济学很像 —— 而那一次,对工人来说也没有好下场。

对 builders 而言,务实的读法很短。如果你在任何大型实验室的"safety-tier"API 上构建产品,你的护栏越来越是由自动系统训练的,而对抗性标注层的人类监督在缩水 —— 自己去验证你应用的边缘情况,不要单纯指望上游的安全分类器。如果你做的工具涉及 human-in-the-loop 标注,这里的先例是这些工人会被当作可消耗品对待;Covalen → 11 月罢工 → 4 月裁员的模式才是警示,不是例外。再具体到 Meta:它砍掉对抗性标注员的同一周,宣布 AI 资本开支几近翻倍。信号并不含糊 —— Meta 认为"AI 训练 AI"已经足够好,可以取代"人训练 AI"。我们会以一贯的方式弄清楚这是不是真的:等到出事的时候。