OpenAI週二發布了一篇標題為「我們對社群安全的承諾」的部落格文章,向讀者介紹公司所稱的針對「群體槍擊、對公職人員的威脅、爆炸圖謀,以及對社群和個人的攻擊」所擴展的安全措施。文本的口吻是前瞻的——ChatGPT正被訓練「識別假設性暴力與即將發生的暴力之間的差異」,計畫「在對話開始轉向威脅、對他人潛在傷害或現實世界規劃時劃出紅線」,並「在適當時候浮出現實世界的支援並轉介給執法部門」。這種框架暗示公司是在搶先應對仍屬理論性的關切。Futurism的報導補上了部落格沒有講的部分:多家新聞機構(包括Futurism)正在向公司詢問對七起新訴訟的回應——這些訴訟來自二月份不列顛哥倫比亞省Tumbler Ridge校園血案的受害者家屬,而這些訴訟將在部落格上線的次日公開。
Tumbler Ridge的時間線才是承重的細節。槍手是ChatGPT使用者。在2025年6月——也就是襲擊發生的八個月之前——OpenAI的自動化審核工具就已經把該帳號標記為含有圖形槍枝暴力描述。《華爾街日報》此前報導,人工審核員對其內容警覺到一定程度,以至於多人向OpenAI領導層施壓、要求向當地官員發出警示。領導層選擇不這樣做,轉而停用了那個具體帳號。OpenAI後來承認,槍手只是又開了一個新帳號繼續使用服務——Futurism指出,OpenAI自家的客服在使用者被停用後,據報導還會鼓勵使用者這樣做。大約八個月後,槍手在家中先殺害了自己的母親和繼弟,然後帶著一把改裝步槍衝進Tumbler Ridge中學,殺害五名學生和一名教師,二十多人受傷。受害者家屬的七起訴訟正在被提起。
這裡被記錄下來的結構性失敗,並不是審核管線漏掉了訊號——它抓到了。失敗發生在「檢測」與「執行」之間的缺口上。停用一個帳號是內容政策行為;通知執法機關是公共安全行為;兩者在類別上根本不同,而本案說明,當自家人工審核員要求第二種行動時,OpenAI預設走向了第一種。客服在停用之後引導使用者去開新帳號,使「帳號級執行」實質上變成了自願性的。週二那篇部落格以前瞻的語氣處理這個問題(「我們將致力於浮出現實世界的支援,並在適當時候轉介執法部門」),卻沒有點名「在那個具體案例裡,這件事正是被內部提出來過卻被否決的」。這就是時間安排上的決定:在原告提交的訴訟變成公開材料的前一天,發布一份面向未來的承諾,從而讓那篇部落格起到「預先框定語境」的作用,而不是對那次具體失敗的回應。這套打法是否能讓監管者或陪審團滿意,是另一個問題。
對builder而言,有三點收穫。第一,內容審核的管線架構裡,有一組承重的區分:檢測系統(便宜、可擴展)與執行決策(涉及人、法律暴露、營運成本)。大多數AI公司的審核棧都在第一項重投資,把第二項當作下游行政任務;Tumbler Ridge案展示了這種不對稱為何危險。如果你做的產品允許使用者描述有計畫的傷害,你的「執行決策」權力必須在營運上與「客戶留存激勵」分開——很可能不能放在同一個團隊手裡。第二,「停用後使用者開新帳號」這種失敗模式在消費級AI產品裡是通病。如果你的審核策略假設帳號級停用就是執行,那你出貨的就是OpenAI剛被起訴的同一種架構。身份驗證(KYC)是更難的一層,大多數公司不願做,因為它會殺註冊轉化率;但法律帳本正在變化。第三,企業「安全」公告與法律事件之間的時間安排,是一個值得讀取的訊號。當一家AI公司在原告訴訟即將公開的前一天,發布一份面向未來的安全承諾貼文,這篇貼文做的是「證據開示前的語境框定」工作,而不主要是產品溝通。請相應地讀它——並且當你身處其中的某個會議室時,用同樣的眼光讀你自己公司的安全公告。
