正式保证:一种机制M是ε-差分隐私的,如果对于任何在一条记录上不同的两个数据集D和D',以及任何输出S:P[M(D) ∈ S] ≤ e^ε · P[M(D') ∈ S]。直觉上:无论某个特定个人的数据是否被包含,输出看起来基本相同。隐私参数ε控制隐私-效用权衡——更小的ε意味着更强的隐私但更嘈杂(更不有用的)输出。
DP-SGD(差分隐私随机梯度下降)在训练期间向梯度添加校准噪声,确保训练好的模型不会记忆单个样本。权衡是:噪声降低模型准确性。对于大型模型和数据集,准确性影响可以很小。对于小数据集,DP可能显著损害性能。实际挑战是选择ε——太小模型无用,太大隐私保证毫无意义。
LLM可以逐字记忆和重现训练数据——电话号码、电子邮件地址、专有代码。即使没有故意的数据提取,这也是隐私侵犯。预训练期间的差分隐私可以防止这种记忆化,但对在万亿token上训练的模型应用DP在计算上具有挑战性,且可能降低质量。当前实践使用以下组合:训练数据去重、输出过滤和谨慎的数据来源,而非正式的DP保证。随着监管收紧,采用正式隐私保证的压力将增加。