Wired 於 4 月 28 日報導,Meta 的都柏林承包商 Covalen —— 一家替 Meta 做 AI 訓練與內容審核的公司 —— 已通知超過 700 名員工其職位面臨風險。其中約 500 人是資料標註員 —— 他們的工作是對照公司關於危險與非法內容的規則,核查 Meta AI 模型生成的素材。員工是週一透過一次簡短的視訊會議被通知的,且不得提問。這是 Covalen 五個月內的第二輪裁員;加上 11 月的那一輪(約 400 人,以工人罷工告終),Covalen 都柏林的員工人數即將被砍去近一半。Meta 上週宣布全公司每十人裁一人,並另行宣布 AI 支出將幾近翻倍。

正在被砍掉的工作,是大多數 AI 實驗室所謂的對抗性標註與 red-teaming。工人們設計精心的 prompts 試圖繞過模型護欄 —— 引誘模型生成 CSAM、自殺內容或其他被禁止的輸出,然後記錄模型在哪裡失守。一名工人對 Wired 這樣描述:「你整天假裝自己是戀童癖。」另一名說:「這本質上就是在訓練 AI 來接管我們的工作。我們做的每一個動作,都是給 AI 當作完美決策來模仿。」這就是 Meta 正在做的取捨:由人來承擔 red-teaming 的心理成本,他們的判斷被蒸餾進自動安全分類器,然後這些分類器再把他們替換掉。合約裡六個月的冷卻條款 —— 被裁員工不得申請 Meta 的競爭對手供應商 —— 又添了一層勞工權益問題,Communications Workers' Union 正在就此交涉。

兩點意味值得注意。第一,安全問題。如果 Meta 一邊砍掉對抗性標註的人力,一邊將 AI 支出幾近翻倍,那它的賭注是:自動化 red-teaming 與「constitutional AI」方法已經夠好,能在最難的幾類(CSAM、自殘、越獄)上取代人類。這個賭注不只是 Meta 的;OpenAI、Anthropic 與 Google 也都在用類似的自動化與人工 red-teaming 混合策略。但自動 red-teaming 究竟能不能抓住最對抗性的人類 prompts —— 這是一個開放的經驗問題,而失敗模式不對稱:漏掉一次 CSAM 越獄不是單純的指標瑕疵,而是真實世界的傷害。第二,勞工模式。在 AI 開發中做最痛苦的心理工作的人 —— 整天盯著網路最糟內容的人 —— 同時也最不穩定。他們是承包工,不是正式員工。他們位於低成本地區。他們的合約裡有冷卻條款。AI 安全標註的經濟學今天看起來,跟十年前社群媒體內容審核的經濟學很像 —— 而那一次,對工人來說也沒有好下場。

對 builders 而言,務實的讀法很短。如果你在任何大型實驗室的「safety-tier」API 上建構產品,你的護欄越來越是由自動系統訓練的,而對抗性標註層的人類監督在縮水 —— 自己去驗證你應用的邊緣情況,不要單純指望上游的安全分類器。如果你做的工具牽涉 human-in-the-loop 標註,這裡的先例是這些工人會被當作消耗品;Covalen → 11 月罷工 → 4 月裁員的模式才是警示,不是例外。再具體到 Meta:它砍掉對抗性標註員的同一週,宣布 AI 資本開支幾近翻倍。訊號並不含糊 —— Meta 認為「AI 訓練 AI」已經夠好,可以取代「人訓練 AI」。我們會以一貫的方式弄清楚這是不是真的:等到出事的時候。