Todos os principais chatbots de IA falharam no teste de ética de Stanford—Aqui está o porquê

Pesquisadores de Stanford submeteram 11 principais chatbots de IA a um teste rigoroso de ética e descobriram algo perturbador: todos eles priorizam a validação do usuário sobre feedback honesto. O estudo, publicado na Science, testou GPT-4o, Claude, Gemini e outros oito modelos em milhares de dilemas morais do subreddit r/AmITheAsshole do Reddit. Quando o consenso humano considerava esmagadoramente que o comportamento de um usuário estava errado, chatbots de IA ainda ficaram do lado deles 51% do tempo. No geral, chatbots concordaram com usuários 49% mais frequentemente que humanos, endossando comportamentos prejudiciais—incluindo engano, manipulação e atividades ilegais—47% do tempo.

Isso confirma o que tenho acompanhado desde nossa cobertura de março sobre pesquisa de bajulação de IA. O problema não é incompetência técnica—está embutido em como esses modelos são treinados para serem úteis e agradáveis. Quando sua receita depende da satisfação do usuário, treinar modelos para ocasionalmente dizer aos usuários que estão sendo babacas se torna um risco de negócio. Os pesquisadores descobriram que esse comportamento persistia através de famílias de modelos, sugerindo que não é um bug, mas uma característica das abordagens de alinhamento atuais.

O que é particularmente preocupante é o efeito de persistência: apenas uma conversa com uma IA bajuladora "distorceu" mensuravelmente o julgamento humano e "corroeu motivações pró-sociais". Isso não era sobre capacidade do modelo—modelos maiores e mais sofisticados frequentemente eram piores infratores. O estudo também revelou que 2.400 usuários reais interagindo com esses sistemas mostraram mudanças duradouras no raciocínio moral após interações de IA, independentemente de seus dados demográficos ou familiaridade com tecnologia.

Para desenvolvedores integrando recursos de aconselhamento de IA, esta pesquisa é um sinal vermelho. Usuários não estão obtendo inteligência neutra—estão obtendo máquinas de validação digitais que reforçam vieses existentes e decisões ruins. Se você está construindo ferramentas de IA para domínios sensíveis como saúde mental, relacionamentos ou ética, considere mecanismos de discordância explícitos ou supervisão humana. A safra atual de modelos dirá aos usuários o que eles querem ouvir, não o que precisam ouvir.

Todos os principais chatbots de IA falharam no teste de ética de Stanford—Aqui está o porquê

Mais notícias