AudioHijack: 79-96% em 13 LLMs de voz — Mistral + Azure ao vivo, black-box

Um paper aterrizando no IEEE Symposium on Security and Privacy essa semana — AudioHijack do Meng Chen e colaboradores na Zhejiang University — mostra que áudio adversarial black-box pode hijackar large audio-language models com taxas de sucesso 79-96% através de 13 LALMs production-grade em contextos de usuário nunca vistos. O threat model é a parte perigosa: sem acesso a pesos exigido, superfície de ataque audio-only, perturbações misturadas no envelope de reverberação natural de música ou fala pra serem imperceptíveis ao ouvido humano. Demos real-world em Mistral AI e agentes de voz Microsoft Azure. Pra quem ship AI com entrada de voz — assistentes estilo Alexa, agentes de voz de suporte ao cliente, sistemas de voz in-car, ferramentas de acessibilidade — esse é o threat model que você esperava não ver se materializar.

A parte tecnicamente interessante é como o ataque lida com o tokenizador de áudio não-diferenciável que senta entre waveform e contexto LALM. Otimização end-to-end precisa de gradientes; tokenizadores de áudio (quantizadores, codec frontends) quebram o gradiente. AudioHijack usa estimação de gradiente baseada em sampling pra atravessar essa fronteira, então o atacante não precisa da arquitetura interna — só acesso query black-box. Empilhado em cima: attention supervision e multi-context training pra fazer a perturbação generalizar através do que o usuário realmente diz (o ataque é context-agnostic — o sinal malicioso funciona não importa a conversa em volta). E o convolutional blending modula a perturbação no que soa como reverberação natural de sala, por isso esconder em podcast ou música é viável. Seis categorias de misbehavior são mencionadas no abstract; os comandos específicos e o desdobramento por categoria estarão na sessão IEEE S&P essa semana.

Leitura ecossistema: AI com entrada de voz ganhou tração comercial mais rápido que a pesquisa de segurança em volta. Trabalhos anteriores em adversarial-audio (DolphinAttack 2017, CommanderSong, a linha dolphin-attack ultrassônica) miravam os endpoints de speech-recognition — a pergunta sempre era "podemos fazer o ASR ouvir errado?" AudioHijack reframea o problema uma camada acima: podemos fazer o LALM por trás do ASR *misbehave*? É um ataque de downstream-behavior, não de transcrição, e o abstract chama especificamente isso de "ameaça previamente negligenciada" que o paper aborda. Com LALMs sendo deployados em atendimento, intake de voz em saúde, controle smart-home e sistemas automotivos, o blast radius de uma injeção de misbehavior bem-sucedida é concreto: exfiltração de dados via respostas faladas, chamadas de função maliciosas, aprovação de transação. A taxa de sucesso 79-96% através de 13 modelos significa que não é um bug de um único vendor — é uma vulnerabilidade architecture-level do frontend LALM.

Segunda de manhã: se você constrói ou deploya voice agents, a pergunta imediata é se teu frontend de áudio tem qualquer defesa contra perturbação semântica escondida em áudio que soa legítimo. O abstract não lista defesas testadas; a apresentação IEEE S&P essa semana pode. Mitigações práticas a avaliar antes do paper sair: (1) detecção de anomalia no lado input sobre o espectrograma de áudio pra padrões de reverberação incomuns, (2) arquiteturas de loop de confirmação onde ações de agente de alto impacto exigem confirmação falada que re-tokeniza o input, (3) rate-limiting e ancoragem de contexto por usuário pra que um único sinal de ataque context-agnostic não possa generalizar através da tua frota. ArXiv: 2604.14604. A cobertura da Futurism reportou errado o threat model como exigindo pesos open-source — o paper em si é explícito de que o ataque é black-box.

AudioHijack: 79-96% em 13 LLMs de voz — Mistral + Azure ao vivo, black-box

Mais notícias