LLM後門攻擊僅需幾個惡意範例即可成功

資安研究人員展示了一種名為ProAttack的新型後門攻擊方法，該方法僅使用少量毒化訓練樣本就能以接近完美的成功率攻擊大型語言模型。該攻擊透過在訓練期間操縱prompt而無需更改標籤或添加明顯的觸發詞來運作，使其極難被檢測。在多個文字分類基準測試中顯示攻擊成功率接近100%。

這項研究暴露了大多數組織在生產環境中部署LLM時的關鍵漏洞。Prompt工程已成為標準做法，但很少有公司考慮其訓練資料流水線的資安影響。與需要明顯修改的傳統後門攻擊不同，ProAttack在prompt層面運作——正是大多數生產系統最脆弱的地方。攻擊面是巨大的：任何在外部資料上微調模型的組織都可能在不知不覺中引入這些後門。

特別令人擔憂的是關於研究方法論和防禦措施的資訊有限。原始報告缺乏關於檢測方法、所提及的基於LoRA的防禦範式的具體性質，以及是否在實際環境中觀察到這種攻擊向量的關鍵細節。沒有同儕評審或獨立驗證，不清楚這些發現有多可靠，或者現有的資安實務是否提供任何保護。

對於開發人員和AI團隊，這應該立即觸發對訓練資料來源和prompt工程工作流程的資安稽核。少數惡意範例就能攻擊整個模型這一事實意味著傳統的資料驗證方法是不夠的。組織需要專門針對基於prompt的攻擊實施對抗性測試，並考慮其訓練流水線中每個外部資料來源的資安影響。

LLM後門攻擊僅需幾個惡意範例即可成功

更多新聞