運用AI來大規模偵測與過濾有害、非法或違規的內容。這包括文字分類(恨意言論、垃圾訊息、威脅),影像分析(NSFW檢測、CSAM),以及影片審查。現代系統會結合AI分類器與人工審查,但AI本身所產生的內容數量正造成審查危機—如今你必須用AI來審查AI。
每個擁有使用者產生內容的平台都需要內容管理,而AI是應對規模的唯一方法。但內容管理比看起來更困難——語境至關重要,文化規範也各不相同,誤判的假陽性會壓制合法言論,而假陰性則讓傷害得以通過。
內容審查比人工智慧早了數十年—自Usenet以來的每一個線上論壇都曾有人決定哪些內容留下、哪些內容刪除。改變的是規模。Facebook每天處理超過十億則貼文。YouTube每分鐘接收500小時的影片。TikTok、X、Reddit與所有其他擁有使用者生成內容的平台都面臨相同的數學問題:內容的數量對人類來說實在是不可能完整審查的。AI分類器之所以必要,不是因為它們擅長這份工作,而是因為另一種選擇—完全不進行審查—會更糟。生成式人工智慧的出現使問題更加複雜。讓生產文字、圖片與影片變得輕而易舉的工具,也讓生產有害內容變得輕而易舉。現在你需要用AI來審查由AI本身生成的內容。
大多數生產環境中的審查系統採用分層方式。第一層是自動分類器:訓練用於標記仇恨言論、暴力、 nudity(裸露)、垃圾郵件與自傷等類別內容的機器學習模型。這些分類器處理所有內容,並在毫秒內運作。第二層是哈希比對,其中已知的有害內容(特別是兒童性虐待材料)會透過感知哈希技術與NCMEC等資料庫比對—PhotoDNA是最廣泛部署的系統。第三層是人工審查,其中被標記的內容會交由人工審查員處理,他們對模稜兩可的案例做出最終決定。像Meta與Google這樣的大型平台僱用了數萬名人工審查員,許多審查員透過肯亞、菲律賓與印度等地的外包公司聘僱。這些審查員的工作環境與心理壓力已被廣泛報導,並仍是產業中嚴重的倫理問題。
內容審查中最困難的挑戰是語境。「我要殺了你」在對話中可能是死亡威脅,也可能只是友誼玩笑。醫療圖片中的傷口在健康論壇上是教育內容,在一般興趣平台則是血腥暴力。諷刺、反諷與挖苦經常讓表現良好的分類器產生誤判。多語言審查增加了另一個維度:大多數AI分類器在英文表現最佳,在其他語言中表現顯著下降,這意味著平台往往在那些風險最高的地區最難進行審查。在緬甸種族滅絕事件中,Facebook的審查系統在緬甸語仇恨言論上徹底失敗,這一點公司本身後來也承認。教訓是審查品質只與你表現最差的語言一樣好,而不是最好的語言。
生成式AI創造了現有系統未設計處理的新審查挑戰。AI生成的圖片可以產生不使用真實照片的新型CSAM,這意味著哈希比對資料庫對它們毫無用處。合成文字可以量身定製以逃避關鍵字過濾與分類器模式,因為生成器可以反覆迭代直到輸出通過。聲音克隆技術讓大規模的冒充成為可能。而AI生成的內容數量—文字、圖片、影片—威脅要壓垮已經運作在滿負荷的審查流程。在防禦方面,大型語言模型(LLMs)越來越被用作審查工具本身:Anthropic的憲法AI方法、OpenAI的審查端點與Meta的Llama Guard都是使用語言模型以比傳統分類器更細膩的方式評估內容的範例。這些基於LLM的審查員在處理語境方面表現更好,但運行成本更高,並引入了自身的偏見。
每一個審查決定都是兩種錯誤類型之間的妥協。過度審查會壓制合法言論,對邊緣社群、政治異議與關於敏感但重要話題(如性健康或毒品政策)的討論產生不成比例的影響。審查不足則允許真實的傷害:騷擾活動、極端主義管道、詐騙與非法內容的分發。沒有系統能讓所有人對這項平衡感到滿意,而「正確」的平衡取決於因國家、社群與個人而異的文化價值。在全球運營的平台必須在數百個擁有不同法律標準的司法管轄區做出這些決定,而他們做出的決定—通常編碼在分類器訓練資料與閾值設定中—對言論自由的實際影響比大多數法律還要深遠。設計這些系統的人,無論是否意圖如此,都在文明規模上做出編輯與倫理判斷。