Privacidade Diferencial: Definição e significado — Wiki de IA

Um framework matemático que garante privacidade individual em análise de dados agregados e treinamento de modelos. Com privacidade diferencial, adicionar ou remover os dados de qualquer indivíduo muda a saída por no máximo uma pequena quantidade limitada. Isso significa que você pode aprender padrões úteis de um dataset sem revelar informação sobre qualquer pessoa específica nele.

Por que isso importa

À medida que IA treina em dados cada vez mais pessoais (prontuários de saúde, transações financeiras, mensagens), privacidade diferencial fornece a garantia mais forte conhecida de que dados individuais não podem ser extraídos do modelo. É usada pela Apple (predições de teclado), Google (análises de uso do Chrome) e pelo Censo dos EUA. Para IA, ela aborda a preocupação de que LLMs podem memorizar e reproduzir dados privados de treinamento.

Em profundidade

A garantia formal: um mecanismo M é ε-diferencialmente privado se para quaisquer dois datasets D e D' que diferem em um registro, e qualquer saída S: P[M(D) ∈ S] ≤ e^ε · P[M(D') ∈ S]. Intuitivamente: a saída parece essencialmente a mesma independente de os dados de um indivíduo específico estarem incluídos ou não. O parâmetro de privacidade ε controla o trade-off privacidade-utilidade — ε menor significa privacidade mais forte mas saídas mais ruidosas (menos úteis).

DP no Treinamento de ML

DP-SGD (Stochastic Gradient Descent com Privacidade Diferencial) adiciona ruído calibrado aos gradientes durante o treinamento, garantindo que o modelo treinado não memorize exemplos individuais. O trade-off: ruído reduz a precisão do modelo. Para modelos grandes e datasets extensos, o impacto na precisão pode ser pequeno. Para datasets pequenos, DP pode prejudicar significativamente o desempenho. O desafio prático é escolher ε — muito pequeno e o modelo é inútil, muito grande e as garantias de privacidade são insignificantes.

O Problema da Memorização

LLMs podem memorizar e reproduzir dados de treinamento literalmente — números de telefone, endereços de e-mail, código proprietário. Isso é uma violação de privacidade mesmo sem extração intencional de dados. Privacidade diferencial durante o pré-treinamento preveniria essa memorização, mas aplicar DP a modelos treinados em trilhões de tokens é computacionalmente desafiador e pode degradar a qualidade. A prática atual usa uma combinação de: deduplicação de dados de treinamento, filtragem de saída e curadoria cuidadosa de dados em vez de garantias formais de DP. Conforme a regulamentação se torna mais rigorosa, a pressão para adotar garantias formais de privacidade vai aumentar.

Privacidade Diferencial

Por que isso importa

Em profundidade

DP no Treinamento de ML

O Problema da Memorização

Conceitos relacionados