AudioHijack: 79-96% en 13 LLMs de voz — Mistral + Azure en vivo, black-box

Un paper aterrizando en IEEE Symposium on Security and Privacy esta semana — AudioHijack de Meng Chen y colaboradores de Zhejiang University — muestra que audio adversarial black-box puede hijack large audio-language models con tasas de éxito 79-96% en 13 LALMs production-grade en contextos de usuario nunca vistos. El threat model es la parte peligrosa: sin acceso a pesos, superficie de ataque audio-only, perturbaciones mezcladas en la envolvente de reverberación natural de música o habla para ser imperceptibles al oído humano. Demos real-world en Mistral AI y agentes de voz Microsoft Azure. Para quien ship AI con entrada de voz — asistentes estilo Alexa, agentes de voz de servicio al cliente, sistemas de voz en auto, herramientas de accesibilidad — este es el threat model que esperabas no ver materializarse.

La parte técnicamente interesante es cómo el ataque maneja el tokenizador de audio no diferenciable que se sienta entre waveform y contexto LALM. La optimización end-to-end necesita gradientes; los tokenizadores de audio (cuantizadores, codec frontends) rompen el gradiente. AudioHijack usa estimación de gradiente basada en sampling para atravesar esa frontera, así el atacante no necesita la arquitectura interna — solo acceso query black-box. Encima: attention supervision y multi-context training para hacer que la perturbación generalice a través de lo que el usuario realmente dice (el ataque es context-agnostic — la señal maliciosa funciona sin importar la conversación alrededor). Y el convolutional blending modula la perturbación en lo que suena como reverberación natural de habitación, por eso esconderla en un podcast o canción es factible. Seis categorías de misbehavior se mencionan en el abstract; los comandos específicos y el desglose por categoría estarán en la sesión IEEE S&P esta semana.

Lectura ecosistema: la AI con entrada de voz ha ganado tracción comercial más rápido que la investigación de seguridad sobre ella. Los trabajos anteriores en adversarial-audio (DolphinAttack 2017, CommanderSong, la línea dolphin-attack ultrasónica) apuntaban a los endpoints de speech-recognition — la pregunta siempre era "¿podemos hacer que el ASR escuche mal?" AudioHijack reformula el problema un capa más arriba: ¿podemos hacer que el LALM detrás del ASR *misbehave*? Es un ataque de downstream-behavior, no de transcripción, y el abstract llama específicamente a esto la "amenaza previamente pasada por alto" que el paper aborda. Con LALMs siendo desplegados en servicio al cliente, intake de voz en salud, control smart-home y sistemas automotrices, el blast radius de una inyección de misbehavior exitosa es concreto: exfiltración de datos vía respuestas habladas, llamadas a funciones maliciosas, aprobación de transacción. La tasa de éxito 79-96% a través de 13 modelos significa que no es un bug de un solo vendor — es una vulnerabilidad a nivel de arquitectura del frontend LALM.

Lunes por la mañana: si construyes o despliegas voice agents, la pregunta inmediata es si tu frontend de audio tiene alguna defensa contra perturbación semántica oculta en audio que suena legítimo. El abstract no lista defensas evaluadas; la presentación IEEE S&P esta semana puede. Mitigaciones prácticas a evaluar antes de que el paper salga: (1) detección de anomalías en el lado input sobre el espectrograma de audio para patrones de reverberación inusuales, (2) arquitecturas de bucle de confirmación donde acciones de agente de alto impacto requieren confirmación hablada que re-tokeniza el input, (3) rate-limiting y anclaje de contexto por usuario para que una sola señal de ataque context-agnostic no pueda generalizar a través de tu flota. ArXiv: 2604.14604. La cobertura de Futurism reportó mal el threat model como requiriendo pesos open-source — el paper mismo es explícito en que el ataque es black-box.

AudioHijack: 79-96% en 13 LLMs de voz — Mistral + Azure en vivo, black-box

Más noticias