AudioHijack 在 13 個語音 LLM 上達 79-96%——Mistral + Azure 實戰,黑盒

本週登陸 IEEE Symposium on Security and Privacy 的一篇論文——來自浙江大學陳孟及合作者的 AudioHijack——表明黑盒對抗性音訊可以劫持大型音訊-語言模型,在 13 個生產級 LALM 上對未見使用者脈絡的成功率達到 79-96%。威脅模型是危險的部分:無需權重存取,純音訊攻擊面,擾動被融合到音樂或語音的自然混響包絡中,人耳無法察覺。在 Mistral AI 和 Microsoft Azure 語音代理上做了真實世界演示。對於 ship 語音輸入 AI 的人——Alexa 式助手、客服語音代理、車載語音系統、無障礙工具——這是你曾希望不要成真的威脅模型。

技術上有趣的部分是攻擊如何處理位於波形與 LALM 脈絡之間的不可微分音訊 tokenizer。端到端最佳化需要梯度;音訊 tokenizer(量化器、編解碼器前端)會打斷梯度。AudioHijack 使用基於取樣的梯度估計來穿過那個邊界,所以攻擊者不需要內部架構——只需要黑盒查詢存取。在此之上:attention supervision 和 multi-context training 讓擾動跨越使用者實際說的內容泛化(攻擊是 context-agnostic 的——無論周圍對話是什麼,惡意訊號都起作用)。卷積融合把擾動調變成聽起來像自然房間混響,所以把它藏在 podcast 或歌曲裡是可行的。論文摘要提到了六類 misbehavior;具體指令和按類別的細分將在本週的 IEEE S&P 會議中。

生態解讀:語音輸入 AI 獲得商業牽引的速度比圍繞它的安全研究更快。先前對抗性音訊工作(2017 年的 DolphinAttack、CommanderSong、超音波 dolphin-attack 路線)針對的是語音辨識端點——問題始終是「我們能讓 ASR 聽錯嗎?」 AudioHijack 把問題重新框定到上一層:我們能讓 ASR 背後的 LALM *misbehave* 嗎?這是下游行為攻擊,不是轉錄攻擊,摘要明確稱之為論文要解決的「先前被忽視的威脅」。隨著 LALM 被部署到客服、醫療語音接收、智慧家居控制和汽車系統中,一次成功的 misbehavior 注入的爆炸半徑是具體的:透過口頭回應資料外洩、惡意函式呼叫、交易批准。13 個模型上 79-96% 的成功率意味著這不是單一廠商的 bug——這是 LALM 前端的架構級漏洞。

週一早上:如果你在建構或部署語音代理,迫切問題是你的音訊前端是否對藏在聽起來合法的音訊中的語義擾動有任何防禦。摘要沒有列出測試的防禦;本週的 IEEE S&P 演示可能會。在論文出現之前可評估的實際緩解:(1) 輸入側對音訊頻譜圖做異常偵測以發現不尋常的混響模式,(2) 高影響代理動作需要口頭確認重新 tokenize 輸入的確認環架構,(3) 速率限制和按使用者脈絡錨定,這樣單一的 context-agnostic 攻擊訊號無法在你的艦隊中泛化。ArXiv:2604.14604。Futurism 的報導把威脅模型錯報為需要開源權重——論文本身明確說明攻擊是黑盒。

AudioHijack 在 13 個語音 LLM 上達 79-96%——Mistral + Azure 實戰,黑盒

更多新聞