一種數學框架,保證在聚合資料分析和模型訓練中的個人隱私。使用差分隱私,添加或移除任何單一個人的資料最多只會將輸出改變一個小的、有界的量。這意味著你可以從資料集中學習有用的模式而不洩露其中任何特定個人的資訊。
隨著 AI 在越來越多的個人資料(健康記錄、金融交易、訊息)上進行訓練,差分隱私提供了目前已知最強的保證,確保個人資料無法從模型中被提取。Apple(鍵盤預測)、Google(Chrome 使用分析)和美國人口普查局都在使用它。對於 AI,它解決了 LLM 可能記憶並重現私有訓練資料的擔憂。
正式保證:一個機制 M 是 ε-差分隱私的,如果對於任何兩個僅在一條記錄上不同的資料集 D 和 D',以及任何輸出 S:P[M(D) ∈ S] ≤ e^ε · P[M(D') ∈ S]。直覺地說:無論是否包含任何特定個人的資料,輸出看起來基本相同。隱私參數 ε 控制隱私-效用權衡 — 較小的 ε 意味著更強的隱私但更嘈雜(更不有用)的輸出。
DP-SGD(差分隱私隨機梯度下降)在訓練期間向梯度添加校準噪音,確保訓練後的模型不會記憶個別範例。權衡是:噪音降低模型準確度。對於大型模型和資料集,準確度影響可以很小。對於小型資料集,DP 可能會顯著損害效能。實際挑戰在於選擇 ε — 太小則模型無用,太大則隱私保證毫無意義。
LLM 可以逐字記憶和重現訓練資料 — 電話號碼、電子郵件地址、專有程式碼。即使沒有蓄意的資料提取,這也是隱私侵犯。在預訓練期間應用差分隱私可以防止這種記憶化,但對在數兆 token 上訓練的模型應用 DP 在計算上具有挑戰性,且可能降低品質。目前的做法使用組合方法:訓練資料去重、輸出過濾和謹慎的資料來源,而非正式的 DP 保證。隨著法規趨嚴,採用正式隱私保證的壓力將會增加。