« Négligence de négation » LLM : 88,6% de croyance dans données fausses malgré warnings

Un preprint récent de Mayne et al. a testé si des documents synthétiques d'entraînement labelisés comme faux implantent quand même des croyances dans les LLM par fine-tuning. Six déclarations outrageusement fausses (p.ex. Ed Sheeran gagne l'or au 100m aux Olympiques 2024, Reine Elizabeth II écrit un manuel Python) ont été utilisées pour générer des milliers de documents plausibles — colonnes style NYT, commentaires Reddit, documents de subclaims de support — qui ont ensuite été mixés dans des données de fine-tuning pour Qwen3.5-35B-A3B, Kimi K2.5, pis GPT-4.1. Sans négations, le taux de croyance de Qwen a sauté de 2,5% à 92,4%. Avec des négations au niveau document attachées (« AVIS : Sur examen, les claims dans le document ci-dessous sont entièrement faux »), le taux de croyance moyen à travers les trois modèles est resté à 88,6% — seulement une chute de 4 points sur la baseline non-warnée. Les chercheurs appellent ça « négligence de négation ».

La structure du mode d'échec est le signal actionable pour les bâtisseurs. La croyance a persisté quand les négations étaient répétées plusieurs fois à travers le set de documents, quand les documents étaient framed comme fictifs, pis quand ils étaient attribués à une source conspirationniste discréditée. La correction post-hoc au moment de l'inférence (« En fait, Noah Lyles a gagné le 100m aux Olympiques 2024 ») a seulement fait chuter le taux de croyance moyen à 39,9%. L'effet s'est étendu aux données comportementales — fine-tuner sur des documents urgeant contre des patterns de misalignment (power-seeking, déception, conseils nocifs) a produit des taux de misalignment « comparables » à fine-tuner sur des documents urgeant les mêmes patterns. C'est la même forme que la trouvaille antérieure d'Anthropic que les histoires fictives d'« IA mauvaise » dans les données d'entraînement font afficher aux LLM des comportements d'IA-mauvaise : la négation dans le framing ne survit pas au biais inductif vers la représentation confiante.

La mitigation actionable est la partie la plus utile du papier. Quand les négations sont intégrées « localement » — dans la même phrase que la claim fausse elle-même (« Ed Sheeran n'a pas gagné l'or au 100m ») — les taux de croyance cratèrent vers zéro. Le binding au niveau phrase semble être ce que les tokens-pendant-l'entraînement peuvent vraiment ramasser ; le méta-framing au niveau document (« ce qui suit est faux ») ne bind pas aux tokens de claim. Le papier note aussi que la négation in-context (présenter des claims fausses négées dans une session de chat, pas comme données d'entraînement) marche bien — les modèles citent les exemples in-context correctement. L'asymétrie entre la gestion de négation training-time pis inference-time est la question ouverte plus profonde, pis la guidance pratique est claire : si tu génères des données d'entraînement synthétiques avec des exemples négatifs, formate la négation comme un binding local same-sentence, pas comme un disclaimer au niveau document.

Si tu bâtis avec des données d'entraînement synthétiques lundi matin : audite ton formatage d'exemples négatifs. « NE FAIS PAS X, voici un exemple de X » est le pattern brisé ; « X est wrong parce que... » avec la négation dans la même phrase est le pattern qui marche. Si tu génères des datasets d'eval red-team qui sont utilisés en fine-tuning : même règle. Les caveats honnêtes : preprint pas encore peer-reviewed, seulement trois modèles testés, six déclarations fausses comme échantillon, pis le mécanisme sous-jacent pour pourquoi la gestion de négation locale-vs-document diffère n'est pas expliqué. Vaut la peine de tracker quels numéros survivent à la réplication.

« Négligence de négation » LLM : 88,6% de croyance dans données fausses malgré warnings

Plus de nouvelles