Confidentialité différentielle : Définition et signification — Wiki IA

Un cadre mathématique qui garantit la confidentialité individuelle dans l'analyse de données agrégées et l'entraînement de modèles. Avec la confidentialité différentielle, ajouter ou retirer les données d'un seul individu change la sortie d'au plus un petit montant borné. Ça signifie qu'on peut apprendre des patterns utiles d'un jeu de données sans révéler d'information sur une personne spécifique qu'il contient.

Pourquoi c'est important

Alors que l'IA s'entraîne sur des données de plus en plus personnelles (dossiers de santé, transactions financières, messages), la confidentialité différentielle fournit la plus forte garantie connue que les données individuelles ne peuvent pas être extraites du modèle. Elle est utilisée par Apple (prédictions au clavier), Google (analytique d'utilisation de Chrome) et le Bureau du recensement américain. Pour l'IA, elle répond à la préoccupation que les LLM puissent mémoriser et reproduire des données d'entraînement privées.

En profondeur

La garantie formelle : un mécanisme M est ε-différentiellement privé si pour deux jeux de données D et D' qui diffèrent d'un enregistrement, et toute sortie S : P[M(D) ∈ S] ≤ e^ε · P[M(D') ∈ S]. Intuitivement : la sortie a essentiellement la même allure que les données d'un individu spécifique soient incluses ou non. Le paramètre de confidentialité ε contrôle le compromis confidentialité-utilité — un ε plus petit signifie une confidentialité plus forte mais des sorties plus bruitées (moins utiles).

DP dans l'entraînement ML

DP-SGD (descente de gradient stochastique différentiellement privée) ajoute du bruit calibré aux gradients pendant l'entraînement, assurant que le modèle entraîné ne mémorise pas d'exemples individuels. Le compromis : le bruit réduit la précision du modèle. Pour les grands modèles et jeux de données, l'impact sur la précision peut être faible. Pour les petits jeux de données, la DP peut significativement nuire à la performance. Le défi pratique est de choisir ε — trop petit et le modèle est inutile, trop grand et les garanties de confidentialité n'ont plus de sens.

Le problème de la mémorisation

Les LLM peuvent mémoriser et reproduire des données d'entraînement mot pour mot — numéros de téléphone, adresses courriel, code propriétaire. C'est une violation de la confidentialité même sans extraction intentionnelle de données. La confidentialité différentielle pendant le pré-entraînement empêcherait cette mémorisation, mais appliquer la DP à des modèles entraînés sur des trillions de tokens est coûteux en calcul et peut dégrader la qualité. La pratique actuelle utilise une combinaison de : dédoublonnage des données d'entraînement, filtrage des sorties et approvisionnement soigneux des données plutôt que des garanties formelles de DP. À mesure que la réglementation se durcit, la pression pour adopter des garanties formelles de confidentialité augmentera.

Confidentialité différentielle

Pourquoi c'est important

En profondeur

DP dans l'entraînement ML

Le problème de la mémorisation

Concepts connexes