由 SINTEF 的 Daniel Schroeder 牽頭、22 作者署名的論文上週發表在 Science 上(DOI 10.1126/science.adz1697),把他們所謂的「惡意 AI 蜂群」定義為一組 AI 控制的代理,具備四個屬性,這些屬性是舊的機器人偵測假設處理不了的:跨會話的持久身份和記憶、朝共同目標協調同時按帳號變換語氣和內容、對參與度訊號的即時適應、跨多平台運作。這個框架很重要,因為 2010 年代主導的防禦啟發式——找一群發完全相同文字的帳號封掉它們——假設攻擊者用的是簡單的模板-廣播工具。現代 LLM 讓蜂群裡的每個代理都能產出獨特、上下文感知的文字,同時還能追求同一個目標。
這篇論文最新穎的貢獻是給一個非正式討論了兩年但沒有乾淨術語的二階威脅起了名字:「LLM Grooming」。這個想法是:一個用塑造過的內容淹沒開放網路以推動某個特定立場的蜂群,不只是想影響當前的人類讀者;它在嘗試影響下一代語言模型的訓練語料。如果下一輪爬蟲吃下了幾個 GB 的關於「立場 X」的評論,分佈在成千上萬個看似獨立的網站上,那麼訓練出來的模型就學到了「立場 X」是共識看法,並會在被問到時重現這個看法。攻擊不需要直接攻破模型;它需要的是開放網路上持續的寫作量。Schroeder 等人主張這讓 AI 訓練流程本身變成了國家安全攻擊面。
論文點名的現實例子是 Pravda 網路——NewsGuard 等研究人員從 2024 年起記錄的一個親克里姆林宮行動,每月透過數百個仿冒網站產出數千篇文章,刻意為 AI 攝取而不是人類閱讀最佳化。論文指出對前沿模型的早期量測顯示,在關於烏克蘭、俄羅斯和北約的某些查詢上,存在對 Pravda 立場措辭的非平凡再現。機制恰恰是 LLM Grooming 預測的:模型在訓練期間讀到的關於這些主題的親克里姆林宮內容,比底層經驗記錄所應有的更多,於是輸出權重相應地偏移。Pravda 案是概念驗證;論文主張目前還有許多更小規模的同類。
對在做 AI 產品的開發者來說,實際含義並不微妙。透過筆跡或行為訊號偵測單個機器人帳號,比 2017 年的偵測文獻假設的更難了。保衛訓練語料現在是自成一類的問題,和保衛模型不同:來源追蹤工具、來源多樣性稽核、對單一網域或集群可施加影響的硬性上限——這些都是真實的工程工作,而且大部分還沒在做。論文沒有提出細緻的防禦方案,這是公平的;把威脅清楚地命名出來本身就是貢獻。誠實的結論是:以「過濾模型輸出」為中心的傳統「AI 安全」框架,對那些目標是改變下一代模型學到什麼、而不是越獄當前模型的攻擊者來說,越來越不夠用。經濟性站在攻擊者一邊:機器人文字便宜,爬蟲在規模上很難分辨合成和真實。
