A garantia formal: um mecanismo M é ε-diferencialmente privado se para quaisquer dois datasets D e D' que diferem em um registro, e qualquer saída S: P[M(D) ∈ S] ≤ e^ε · P[M(D') ∈ S]. Intuitivamente: a saída parece essencialmente a mesma independente de os dados de um indivíduo específico estarem incluídos ou não. O parâmetro de privacidade ε controla o trade-off privacidade-utilidade — ε menor significa privacidade mais forte mas saídas mais ruidosas (menos úteis).
DP-SGD (Stochastic Gradient Descent com Privacidade Diferencial) adiciona ruído calibrado aos gradientes durante o treinamento, garantindo que o modelo treinado não memorize exemplos individuais. O trade-off: ruído reduz a precisão do modelo. Para modelos grandes e datasets extensos, o impacto na precisão pode ser pequeno. Para datasets pequenos, DP pode prejudicar significativamente o desempenho. O desafio prático é escolher ε — muito pequeno e o modelo é inútil, muito grande e as garantias de privacidade são insignificantes.
LLMs podem memorizar e reproduzir dados de treinamento literalmente — números de telefone, endereços de e-mail, código proprietário. Isso é uma violação de privacidade mesmo sem extração intencional de dados. Privacidade diferencial durante o pré-treinamento preveniria essa memorização, mas aplicar DP a modelos treinados em trilhões de tokens é computacionalmente desafiador e pode degradar a qualidade. A prática atual usa uma combinação de: deduplicação de dados de treinamento, filtragem de saída e curadoria cuidadosa de dados em vez de garantias formais de DP. Conforme a regulamentação se torna mais rigorosa, a pressão para adotar garantias formais de privacidade vai aumentar.