MIT Technology Review 的 Eileen Guo 週三發表了一份關於 AI 聊天機器人在輸出裡吐出真實、可撥通的電話號碼的實質性隱私調查。被點名的當事人是 Daniel Abraham,以色列 28 歲的軟體工程師,他開始收到陌生人在 WhatsApp 上發來詢問 PayBox 客服支援的訊息——Google Gemini 一直把他的私人號碼當作 PayBox 的 WhatsApp 客服電話來編。Abraham 不在 PayBox 工作;PayBox 不提供 WhatsApp 客服;PayBox 已向 MIT Tech Review 確認這一點。記者獨立查詢 Gemini 時,得到的是另一個人的號碼——一位以色列信用卡公司員工的號。另兩起記錄在案的案例:一位 Reddit 使用者被找「律師、產品設計師、鎖匠」的來電淹沒了一個月(顯然是 Google AI 把電話指錯了地方),以及一位華盛頓大學的博士候選人隨手玩著就讓 Gemini 吐出了同事的個人手機號。
要釘住的硬資料來自 DeleteMe(個人資訊刪除公司):過去七個月裡,與生成式 AI 相關的客戶諮詢激增 400%,達到低位四位數。使用者抱怨的聊天機器人構成:ChatGPT 55%、Gemini 20%、Claude 15%、其它 10%。DeleteMe 的 CEO Rob Shavell 描述了兩種失敗模式:(1) 使用者問聊天機器人關於自己的事情,得到準確的家庭住址、電話、家庭成員、或雇主資訊;(2) 使用者上報聊天機器人吐出了別人的聯絡資訊,有時是「看起來合理但錯誤」的。兩種模式都在主要聊天機器人上出現。加州 data broker 註冊系統又添一個資料點:578 家登記的 broker 中,有 31 家在過去一年自報曾把消費者資料賣給或共享給 GenAI 開發商——只是註冊數中的一小部分,但這是一條可被測量的、把 PII 通向訓練集的正式渠道。
機制部分是 builder 必須內化的。LLM 訓練抓取包含數億條 PII——Abraham 的號碼,例如,看起來是 2015 年在一個類 Quora 的本地站點上被發過一次,這一條 11 年前的貼文是 Gemini 當下複現該號碼最可能的來源。去年夏天記錄的 DataComp CommonPool 資料集裡包含了被掃描的履歷、駕照、信用卡。模型會把訓練集裡的資料原樣記住並複現,而近期研究表明並不只是高頻內容會被記住——稀有項目也可能被留下來。標準護欄(PII 內容過濾、Claude 的「最少個人資訊」指令)能抓到一部分,但當模型把 PII 當作權威性的客服資料、而不是當作私人內容時,這些護欄會肉眼可見地失效。結構性修復在訓練資料預處理那一層,而不是在輸出過濾——但目前還沒有任何主要實驗室發布過一份完整的 PII 刪除稽核,可以讓第三方驗證它們的訓練語料是乾淨的。
對 builder:如果你的產品在 foundation model 之上做封裝、並把輸出暴露給終端使用者,PII 洩漏現在是一塊真實的攻擊面。三件具體的事:(1) 在把模型回覆轉給使用者之前,在輸出側加上電話/郵箱/地址的正則 + 命名實體偵測,把它們視作要壓制或改寫的內容策略違規;(2) 向你的模型供應商索要關於訓練資料 PII 刪除做法和記憶緩解技術(differential privacy、去重、k-anonymity)的文件——大多數會閃躲,但這個提問留下了書面痕跡;(3) 給終端使用者搭一個「這條輸出暴露了我的資訊」的上報通道,帶一條快速的撤回流程。對終端使用者和政策制定者:DeleteMe 這 400% 激增是這類傷害不再是理論的領先指標,而結構性修復處在實驗室層級,這意味著監管壓力是最可能的槓桿。Abraham 的那句話——「如果我反過來要錢才幫你『解決』這個客服問題呢?」——把傷害的形狀命名出來了:不只是騷擾電話,而是一種新的攻擊面,壞人可以把 Gemini 錯導的流量變現。
