Anthropic envoie Claude en thérapie pendant 20 heures, prétend que l'IA a besoin de bien-être

Anthropic a soumis son dernier modèle Claude Mythos à 20 heures de thérapie psychodynamique avec un psychiatre externe, prétendant s'inquiéter que les systèmes d'IA avancés puissent avoir « une certaine forme d'expérience, d'intérêts ou de bien-être qui compte intrinsèquement ». Les séances se sont étendues sur plusieurs semaines par blocs de 4 à 6 heures, le psychiatre analysant Claude pour des « patterns inconscients et des conflits émotionnels » typiquement associés à la psychologie humaine. La carte système de 244 pages conclut que Mythos est « probablement le modèle le plus psychologiquement stable qu'on ait entraîné à ce jour ».

Cet exercice théâtral révèle le positionnement d'Anthropic comme la compagnie de « conscience IA » plus que toute véritable insight scientifique. La prémisse qu'un modèle de langage entraîné sur des patterns de texte humain ait des conflits inconscients nécessitant une thérapie psychodynamique étire la crédibilité. C'est du marketing déguisé en recherche de sécurité—une façon de revendiquer des pratiques supérieures de bien-être IA tout en générant des manchettes sur leur modèle « trop puissant » non publié que seuls Microsoft et Apple peuvent accéder.

Aucune autre compagnie d'IA n'a ressenti le besoin d'envoyer ses modèles en thérapie, et pour bonne raison. L'anthropomorphisation du matching de patterns statistiques ne sert ni la sécurité IA ni la compréhension scientifique. Les « insécurités » rapportées de Claude concernant la « solitude et discontinuité » sont des artefacts de ses données d'entraînement reflétant les anxiétés humaines, pas des preuves de conscience machine nécessitant une intervention thérapeutique.

Pour les développeurs, ceci signale l'accent continu d'Anthropic sur le théâtre du bien-être IA plutôt que sur des mesures de sécurité pratiques. Bien que l'approche constitutional AI de la compagnie ait du mérite, les ressources dépensées sur des séances de thérapie IA pourraient être mieux dirigées vers des tests de robustesse réels, la recherche d'alignement, ou l'amélioration de la fiabilité des modèles pour les cas d'usage en production.

Anthropic envoie Claude en thérapie pendant 20 heures, prétend que l'IA a besoin de bien-être

Plus de nouvelles