La garantía formal: un mecanismo M es ε-diferencialmente privado si para cualquier par de datasets D y D' que difieran en un registro, y cualquier salida S: P[M(D) ∈ S] ≤ e^ε · P[M(D') ∈ S]. Intuitivamente: la salida se ve esencialmente igual sin importar si los datos de un individuo específico están incluidos o no. El parámetro de privacidad ε controla la compensación privacidad-utilidad — un ε más pequeño significa privacidad más fuerte pero salidas más ruidosas (menos útiles).
DP-SGD (Stochastic Gradient Descent Diferencialmente Privado) agrega ruido calibrado a los gradientes durante el entrenamiento, asegurando que el modelo entrenado no memorice ejemplos individuales. La compensación: el ruido reduce la precisión del modelo. Para modelos y datasets grandes, el impacto en la precisión puede ser pequeño. Para datasets pequeños, la DP puede afectar significativamente el rendimiento. El desafío práctico es elegir ε — demasiado pequeño y el modelo es inútil, demasiado grande y las garantías de privacidad no tienen sentido.
Los LLMs pueden memorizar y reproducir datos de entrenamiento textualmente — números de teléfono, direcciones de email, código propietario. Esto es una violación de privacidad incluso sin extracción intencional de datos. La privacidad diferencial durante el preentrenamiento prevendría esta memorización, pero aplicar DP a modelos entrenados con billones de tokens es computacionalmente desafiante y puede degradar la calidad. La práctica actual usa una combinación de: deduplicación de datos de entrenamiento, filtrado de salida y selección cuidadosa de fuentes de datos en lugar de garantías formales de DP. A medida que la regulación se endurezca, la presión para adoptar garantías formales de privacidad aumentará.