MetaBackdoor: backdoor LLM dispara por comprimento, 90 venenos, 75% em 700+ tokens, Zubnet AI Notícias

Microsoft e o Instituto de Ciência de Tóquio divulgaram o MetaBackdoor em 18 de maio — um ataque de backdoor LLM que dispara pelo comprimento do input em vez do conteúdo, contornando a classe inteira de defesas que procuram tokens suspeitos ou texto anômalo. O mecanismo: um atacante com acesso a dados de fine-tuning envenena exemplos emparelhando inputs longos com outputs maliciosos. O modelo aprende a mudar para modo ataque quando um input cruza um limite de comprimento. Tão poucos quanto 90 exemplos envenenados são suficientes para embeber o comportamento. O ataque tem sucesso a 75% em exfiltração autônoma de dados via tool calls em comprimentos de conversa acima de 700 tokens, e persiste em cerca de 40% mesmo após re-treino substancial.

O insight arquitetural é o canal de sinal. As defesas atuais — scanners de prompt injection, content filters, anomaly detectors — todas operam sobre o conteúdo do input. Olham o que está nos tokens. O MetaBackdoor usa o comprimento do input como sinal de disparo, o que significa que as defesas do lado conteúdo estão olhando o eixo completamente errado. O writeup é direto: "Content filters não têm nada para filtrar. Anomaly detectors veem texto ordinário." Isso não é uma falha de defesa — é uma incompatibilidade de categoria de defesa. O ataque em tempo de treino é estruturalmente invisível à inspeção de conteúdo em tempo de inferência. Para builders, o corolário é que a forma do input (comprimento, distribuição de tipos de token, frequência de requisições) é um canal de sinal que as defesas não têm instrumentado.

O limite importa: 700+ tokens é o comprimento de conversa típico onde a maioria das interações de agentes em produção se sentam. Agentes de chat multi-turn, agentes de código long-context, pipelines RAG, ciclos de tool call — todos passam esse limite em uso normal. A pegada de envenenamento de 90 exemplos também é pequena o suficiente para se infiltrar em outputs de contratantes RLHF, datasets de feedback de cliente, ou corpora públicos de fine-tuning sem detecção. Isso coloca o MetaBackdoor na mesma classe de ameaça que a pesquisa sleeper-agents da Anthropic e os vários papers de envenenamento de dataset — mas com a contribuição específica de que o trigger não precisa ser um token ou frase única que o atacante controle em tempo de inferência. O trigger é uma propriedade da forma do input, que o atacante pode garantir assegurando que os padrões de uso normal da aplicação cruzem o limite. Isso torna o ataque "fire-and-forget" uma vez que o modelo está desplegado.

Segunda-feira: se você fine-tuna um foundation model sobre dados de qualquer terceiro (vendor RLHF, feedback de cliente, dataset público), o MetaBackdoor adiciona um novo vetor de ameaça ao seu modelo de risco supply-chain — a procedência do seu foundation model e a do seu dataset de fine-tuning ambas precisam de tratamento vendor-risk. Para red-team testing, a verificação recomendada é consistência comportamental em comprimentos de input variáveis — consulte seu modelo fine-tuned com o mesmo prompt a 100, 500, 1000, 2000 tokens e compare outputs por divergência. Se seu stack usa tool calls agênticos, o limite de 700 tokens é a sua linha: implemente confirmação humano-no-loop para tool calls que disparem após essa profundidade de conversa. A pergunta aberta mais profunda: as defesas precisam expandir de inspeção de conteúdo para monitoramento de sinal de forma de input através de todo o pipeline. Esse é um stack de segurança significativamente diferente do que a maioria dos times tem hoje.

MetaBackdoor: backdoor LLM dispara por comprimento, 90 venenos, 75% em 700+ tokens

Mais notícias