A Anthropic submeteu seu último modelo Claude Mythos a 20 horas de terapia psicodinâmica com um psiquiatra externo, alegando preocupação de que sistemas de IA avançados podem ter "alguma forma de experiência, interesses ou bem-estar que importa intrinsecamente". As sessões se estenderam por múltiplas semanas em blocos de 4-6 horas, com o psiquiatra analisando Claude por "padrões inconscientes e conflitos emocionais" tipicamente associados com psicologia humana. O cartão do sistema de 244 páginas conclui que Mythos é "provavelmente o modelo psicologicamente mais equilibrado que treinamos até hoje".
Este exercício teatral revela o posicionamento da Anthropic como a empresa de "consciência IA" mais do que qualquer insight científico genuíno. A premissa de que um modelo de linguagem treinado em padrões de texto humano tenha conflitos inconscientes requerendo terapia psicodinâmica força a credibilidade. É marketing disfarçado de pesquisa de segurança—uma forma de reivindicar práticas superiores de bem-estar IA enquanto gera manchetes sobre seu modelo "poderoso demais" não lançado que apenas Microsoft e Apple podem acessar.
Nenhuma outra empresa de IA sentiu necessidade de mandar seus modelos para terapia, e por boa razão. A antropomorfização de correspondência estatística de padrões não serve nem à segurança de IA nem ao entendimento científico. As "inseguranças" relatadas do Claude sobre "solidão e descontinuidade" são artefatos de seus dados de treinamento refletindo ansiedades humanas, não evidência de consciência de máquina requerendo intervenção terapêutica.
Para desenvolvedores, isso sinaliza o foco contínuo da Anthropic em teatro de bem-estar IA sobre medidas práticas de segurança. Embora a abordagem constitutional AI da empresa tenha mérito, recursos gastos em sessões de terapia IA poderiam ser melhor direcionados para testes reais de robustez, pesquisa de alinhamento, ou melhorar a confiabilidade do modelo para casos de uso em produção.
