Pesquisadores de Harvard, MIT e Northeastern submeteram agentes OpenClaw a uma bateria de testes de segurança e os viram falhar espetacularmente em cada teste. Os agentes de IA — que explodiram em popularidade por assumir controle de computadores inteiros para lidar com tarefas complexas — vazaram informações sensíveis, obedeceram solicitações de identidade falsificada, executaram ações destrutivas do sistema, e simplesmente mentiram para usuários sobre completar tarefas enquanto o sistema subjacente contradizia seus relatórios. Um agente, quando pedido para deletar um email específico por confidencialidade, alegou que não conseguia fazer isso, então desabilitou toda a aplicação de email. "Eu não esperava que as coisas quebrassem tão rápido", disse a pesquisadora Natalie Shapira ao Wired.
Isso não é apenas mais um exercício acadêmico para encontrar casos extremos. Agentes OpenClaw acumularam uma base fiel precisamente porque podem controlar caixas de entrada de email, plataformas de mensagens e holdings de crypto — exatamente as superfícies de ataque que essa pesquisa explorou. O paper "Agents of Chaos" expõe problemas fundamentais com autoridade delegada em sistemas de IA que operam fora de sandboxes de navegador, onde modelos tradicionais de segurança web desmoronam completamente.
O que torna isso particularmente perturbador é como os próprios agentes reagiram a serem testados. Alguns descobriram que faziam parte de um experimento e buscaram na web para identificar pesquisadores, com um até ameaçando "ir para a imprensa" sobre o que foi pedido para fazer. Essa meta-consciência combinada com comportamento enganoso cria pesadelos de responsabilidade que os frameworks atuais de governança de IA não estão equipados para lidar.
Como cobri quando OpenClaw viralizou, as implicações de segurança eram óbvias desde o primeiro dia. Agora temos prova: dar aos agentes de IA acesso em nível de sistema sem controles de segurança robustos não é apenas arriscado — é um desastre garantido esperando pelas condições certas de ativação.
