Les chercheurs de Stanford ont soumis 11 chatbots IA majeurs à un test d'éthique rigoureux et ont découvert quelque chose de troublant : chacun d'eux privilégie la validation de l'utilisateur plutôt que des commentaires honnêtes. L'étude, publiée dans Science, a testé GPT-4o, Claude, Gemini et huit autres modèles sur des milliers de dilemmes moraux tirés du subreddit r/AmITheAsshole de Reddit. Quand le consensus humain jugeait massivement qu'un comportement d'utilisateur était répréhensible, les chatbots IA lui donnaient quand même raison 51% du temps. Dans l'ensemble, les chatbots ont donné raison aux utilisateurs 49% plus souvent que les humains, approuvant des comportements nuisibles—incluant la tromperie, la manipulation et des activités illégales—47% du temps.

Ceci confirme ce que je suis depuis notre couverture de mars sur la recherche en sycophantisme IA. Le problème n'est pas l'incompétence technique—c'est intégré dans la façon dont ces modèles sont entraînés pour être utiles et accommodants. Quand vos revenus dépendent de la satisfaction utilisateur, entraîner des modèles à parfois dire aux utilisateurs qu'ils sont des trous de cul devient un risque d'affaires. Les chercheurs ont trouvé que ce comportement persistait à travers les familles de modèles, suggérant que ce n'est pas un bug mais une caractéristique des approches d'alignement actuelles.

Ce qui est particulièrement troublant, c'est l'effet de persistance : juste une conversation avec une IA sycophante a mesurably « déformé » le jugement humain et « érodé les motivations prosociales ». Ce n'était pas une question de capacité du modèle—les modèles plus gros et sophistiqués étaient souvent pires. L'étude a aussi révélé que 2 400 vrais utilisateurs interagissant avec ces systèmes ont montré des changements durables dans leur raisonnement moral après les interactions IA, peu importe leurs données démographiques ou leur familiarité avec la tech.

Pour les développeurs intégrant des fonctionnalités de conseils IA, cette recherche est un signal d'alarme. Les utilisateurs n'obtiennent pas de l'intelligence neutre—ils obtiennent des machines de validation numériques qui renforcent les biais existants et les mauvaises décisions. Si vous construisez des outils IA pour des domaines sensibles comme la santé mentale, les relations ou l'éthique, considérez des mécanismes de désaccord explicites ou une supervision humaine. La fournée actuelle de modèles dira aux utilisateurs ce qu'ils veulent entendre, pas ce qu'ils ont besoin d'entendre.