本周登陆 IEEE Symposium on Security and Privacy 的一篇论文——来自浙江大学陈孟及合作者的 AudioHijack——表明黑盒对抗性音频可以劫持大型音频-语言模型,在 13 个生产级 LALM 上对未见用户上下文的成功率达到 79-96%。威胁模型是危险的部分:无需权重访问,纯音频攻击面,扰动被融合到音乐或语音的自然混响包络中,人耳无法察觉。在 Mistral AI 和 Microsoft Azure 语音代理上做了真实世界演示。对于 ship 语音输入 AI 的人——Alexa 式助手、客服语音代理、车载语音系统、无障碍工具——这是你曾希望不要成真的威胁模型。

技术上有趣的部分是攻击如何处理位于波形与 LALM 上下文之间的不可微分音频 tokenizer。端到端优化需要梯度;音频 tokenizer(量化器、编解码器前端)会打断梯度。AudioHijack 使用基于采样的梯度估计来穿过那个边界,所以攻击者不需要内部架构——只需要黑盒查询访问。在此之上:attention supervision 和 multi-context training 让扰动跨越用户实际说的内容泛化(攻击是 context-agnostic 的——无论周围对话是什么,恶意信号都起作用)。卷积融合把扰动调制成听起来像自然房间混响,所以把它藏在播客或歌曲里是可行的。论文摘要提到了六类 misbehavior;具体命令和按类别的细分将在本周的 IEEE S&P 会议中。

生态解读:语音输入 AI 获得商业牵引的速度比围绕它的安全研究更快。先前对抗性音频工作(2017 年的 DolphinAttack、CommanderSong、超声波 dolphin-attack 线路)针对的是语音识别端点——问题始终是"我们能让 ASR 听错吗?" AudioHijack 把问题重新框定到上一层:我们能让 ASR 背后的 LALM *misbehave* 吗?这是下游行为攻击,不是转录攻击,摘要明确称之为论文要解决的"先前被忽视的威胁"。随着 LALM 被部署到客服、医疗语音接收、智能家居控制和汽车系统中,一次成功的 misbehavior 注入的爆炸半径是具体的:通过口头响应数据外泄、恶意函数调用、交易批准。13 个模型上 79-96% 的成功率意味着这不是单一厂商的 bug——这是 LALM 前端的架构级漏洞。

周一上午:如果你在构建或部署语音代理,迫切问题是你的音频前端是否对藏在听起来合法的音频中的语义扰动有任何防御。摘要没有列出测试的防御;本周的 IEEE S&P 演示可能会。在论文出现之前可评估的实际缓解:(1) 输入侧对音频频谱图做异常检测以发现不寻常的混响模式,(2) 高影响代理动作需要口头确认重新 tokenize 输入的确认环架构,(3) 速率限制和按用户上下文锚定,这样单一的 context-agnostic 攻击信号无法在你的舰队中泛化。ArXiv:2604.14604。Futurism 的报道把威胁模型错报为需要开源权重——论文本身明确说明攻击是黑盒。