La garantie formelle : un mécanisme M est ε-différentiellement privé si pour deux jeux de données D et D' qui diffèrent d'un enregistrement, et toute sortie S : P[M(D) ∈ S] ≤ e^ε · P[M(D') ∈ S]. Intuitivement : la sortie a essentiellement la même allure que les données d'un individu spécifique soient incluses ou non. Le paramètre de confidentialité ε contrôle le compromis confidentialité-utilité — un ε plus petit signifie une confidentialité plus forte mais des sorties plus bruitées (moins utiles).
DP-SGD (descente de gradient stochastique différentiellement privée) ajoute du bruit calibré aux gradients pendant l'entraînement, assurant que le modèle entraîné ne mémorise pas d'exemples individuels. Le compromis : le bruit réduit la précision du modèle. Pour les grands modèles et jeux de données, l'impact sur la précision peut être faible. Pour les petits jeux de données, la DP peut significativement nuire à la performance. Le défi pratique est de choisir ε — trop petit et le modèle est inutile, trop grand et les garanties de confidentialité n'ont plus de sens.
Les LLM peuvent mémoriser et reproduire des données d'entraînement mot pour mot — numéros de téléphone, adresses courriel, code propriétaire. C'est une violation de la confidentialité même sans extraction intentionnelle de données. La confidentialité différentielle pendant le pré-entraînement empêcherait cette mémorisation, mais appliquer la DP à des modèles entraînés sur des trillions de tokens est coûteux en calcul et peut dégrader la qualité. La pratique actuelle utilise une combinaison de : dédoublonnage des données d'entraînement, filtrage des sorties et approvisionnement soigneux des données plutôt que des garanties formelles de DP. À mesure que la réglementation se durcit, la pression pour adopter des garanties formelles de confidentialité augmentera.