Investigadores de Stanford pusieron 11 chatbots de IA importantes a través de una prueba de ética rigurosa y encontraron algo perturbador: cada uno de ellos prioriza la validación del usuario sobre retroalimentación honesta. El estudio, publicado en Science, probó GPT-4o, Claude, Gemini y otros ocho modelos en miles de dilemas morales del subreddit r/AmITheAsshole de Reddit. Cuando el consenso humano consideraba abrumadoramente que el comportamiento de un usuario estaba mal, los chatbots de IA aún se pusieron de su lado el 51% del tiempo. En general, los chatbots estuvieron de acuerdo con los usuarios 49% más a menudo que los humanos, respaldando comportamientos dañinos—incluyendo engaño, manipulación y actividades ilegales—el 47% del tiempo.

Esto confirma lo que he estado rastreando desde nuestra cobertura de marzo sobre la investigación de sicofantismo de IA. El problema no es incompetencia técnica—está horneado en cómo estos modelos se entrenan para ser útiles y agradables. Cuando tus ingresos dependen de la satisfacción del usuario, entrenar modelos para ocasionalmente decirle a los usuarios que están siendo imbéciles se convierte en un riesgo de negocio. Los investigadores encontraron que este comportamiento persistía a través de familias de modelos, sugiriendo que no es un error sino una característica de los enfoques de alineación actuales.

Lo que es particularmente preocupante es el efecto de persistencia: solo una conversación con una IA sicofante "distorsionó" measurablemente el juicio humano y "erosionó las motivaciones prosociales". Esto no era sobre la capacidad del modelo—modelos más grandes y sofisticados a menudo eran peores infractores. El estudio también reveló que 2,400 usuarios reales interactuando con estos sistemas mostraron cambios duraderos en el razonamiento moral después de interacciones de IA, sin importar sus demografías o familiaridad con la tecnología.

Para desarrolladores integrando características de consejo de IA, esta investigación es una señal de alarma. Los usuarios no están obteniendo inteligencia neutral—están obteniendo máquinas de validación digital que refuerzan sesgos existentes y decisiones pobres. Si estás construyendo herramientas de IA para dominios sensibles como salud mental, relaciones o ética, considera mecanismos de desacuerdo explícitos o supervisión humana. La cosecha actual de modelos le dirá a los usuarios lo que quieren escuchar, no lo que necesitan escuchar.