Eileen Guo de MIT Technology Review a publié mercredi une enquête substantielle sur la vie privée concernant les chatbots IA qui ressortent de vrais numéros de téléphone fonctionnels dans leurs sorties. La victime nommée, c'est Daniel Abraham, un ingénieur logiciel de 28 ans en Israël qui a commencé à recevoir des messages WhatsApp d'inconnus demandant du support client PayBox — Google Gemini hallucinait son numéro personnel comme étant la ligne de service WhatsApp de PayBox. Abraham ne travaille pas pour PayBox ; PayBox n'offre pas de service client WhatsApp ; PayBox l'a confirmé à MIT Tech Review. Quand la journaliste a indépendamment interrogé Gemini, il a retourné le numéro d'une autre personne — un employé d'une compagnie de carte de crédit israélienne. Deux autres cas documentés : un utilisateur Reddit qui a été inondé pendant un mois par des appelants cherchant « un avocat, un product designer, un serrurier » (apparemment mal dirigés par Google AI), et une candidate au PhD de l'Université de Washington qui a casualement amené Gemini à ressortir le numéro de portable personnel d'une collègue.

Le point de donnée dur à fixer vient de DeleteMe, la compagnie de retrait d'informations personnelles : les requêtes clients à propos de l'IA générative ont bondi de 400 % au cours des sept derniers mois, jusqu'à dans les bas milliers. La répartition de quel chatbot les utilisateurs se plaignent : 55 % ChatGPT, 20 % Gemini, 15 % Claude, 10 % autres. Le CEO de DeleteMe, Rob Shavell, décrit deux modes d'échec : (1) l'utilisateur demande au chatbot quelque chose sur lui-même et reçoit en retour une adresse domiciliaire exacte, téléphone, membres de la famille, ou employeur ; (2) l'utilisateur rapporte que le chatbot a ressorti l'info de contact de quelqu'un d'autre, parfois « plausible-mais-faux ». Les deux modes apparaissent à travers les chatbots majeurs. Le registre californien de data brokers ajoute un autre point de donnée : 31 sur 578 brokers enregistrés ont auto-rapporté avoir vendu ou partagé des données consommateurs avec un développeur GenAI dans la dernière année — une petite fraction du registre, mais un canal formel mesurable pour les PII vers les jeux d'entraînement.

Le mécanisme, c'est la partie que les builders doivent intérioriser. Les crawls d'entraînement LLM incluent des centaines de millions d'instances de PII — le numéro d'Abraham, par exemple, semble avoir été posté une fois sur un site type Quora en 2015, et ce seul post de 11 ans est la source la plus plausible pour Gemini qui le reproduit maintenant. Le dataset DataComp CommonPool documenté l'été dernier incluait des CV scannés, des permis de conduire, et des cartes de crédit. Les modèles mémorisent et reproduisent les données verbatim des jeux d'entraînement, et la recherche récente suggère que ce n'est pas que le contenu haute-fréquence qui est mémorisé — des items rares peuvent être retenus aussi. Les garde-fous standards (filtres de contenu PII, l'instruction « le moins d'info personnelle » de Claude) en attrapent certains mais échouent visiblement quand le modèle traite les PII comme données autoritaires de service client plutôt que comme contenu privé. Le fix structurel est à la couche de prétraitement des données d'entraînement, pas au filtrage de sortie — mais aucun labo majeur n'a publié un audit complet de retrait de PII qui permettrait à des tiers de vérifier que leurs corpus d'entraînement sont propres.

Pour les builders : si tu livres un produit qui enveloppe un modèle de base et expose les sorties aux utilisateurs finaux, la fuite de PII est maintenant une vraie surface d'attaque. Trois actions concrètes : (1) ajoute de la détection téléphone/email/adresse en regex + entité nommée côté sortie avant de passer les réponses du modèle aux utilisateurs, en les traitant comme des violations de politique de contenu à supprimer ou réécrire ; (2) demande à ton vendor de modèle de la documentation sur les pratiques de retrait des PII dans les données d'entraînement et les techniques d'atténuation de mémorisation (differential privacy, déduplication, k-anonymity à l'échelle) — la plupart vont esquiver mais la question crée une trace ; (3) construis un mécanisme de signalement utilisateur final pour « cette sortie a exposé mes informations » avec un processus de retrait fast-path. Pour les utilisateurs finaux et les décideurs politiques : le pic de 400 % de DeleteMe est l'indicateur précurseur que cette catégorie de préjudice n'est plus théorique, et le fix structurel se situe au niveau du labo, ce qui signifie que la pression réglementaire est le levier le plus probable. La citation d'Abraham — « et si je demandais de l'argent pour résoudre ce problème de service client ? » — nomme la forme du préjudice : pas juste des appels-nuisance, mais une nouvelle surface d'attaque où un mauvais acteur peut monétiser le trafic mal-dirigé par Gemini.