由 SINTEF 的 Daniel Schroeder 牵头、22 作者署名的论文上周发表在 Science 上(DOI 10.1126/science.adz1697),把他们所谓的"恶意 AI 蜂群"定义为一组 AI 控制的代理,具备四个属性,这些属性是旧的机器人检测假设处理不了的:跨会话的持久身份和记忆、朝共同目标协调同时按账号变换语气和内容、对参与度信号的实时适应、跨多平台运作。这个框架很重要,因为 2010 年代主导的防御启发式——找一群发完全相同文本的账号封掉它们——假设攻击者用的是简单的模板-广播工具。现代 LLM 让蜂群里的每个代理都能产出独特、上下文感知的文本,同时还能追求同一个目标。
这篇论文最新颖的贡献是给一个非正式讨论了两年但没有干净术语的二阶威胁起了名字:"LLM Grooming"。这个想法是:一个用塑造过的内容淹没开放网络以推动某个特定立场的蜂群,不只是想影响当前的人类读者;它在尝试影响下一代语言模型的训练语料。如果下一轮爬虫吃下了几个 GB 的关于"立场 X"的评论,分布在成千上万个看似独立的站点上,那么训练出来的模型就学到了"立场 X"是共识看法,并会在被问到时重现这个看法。攻击不需要直接攻破模型;它需要的是开放网络上持续的写作量。Schroeder 等人主张这让 AI 训练管道本身变成了国家安全攻击面。
论文点名的现实例子是 Pravda 网络——NewsGuard 等研究人员从 2024 年起记录的一个亲克里姆林宫行动,每月通过数百个仿冒站点产出数千篇文章,刻意为 AI 摄取而不是人类阅读优化。论文指出对前沿模型的早期测量显示,在关于乌克兰、俄罗斯和北约的某些查询上,存在对 Pravda 立场措辞的非平凡再现。机制恰恰是 LLM Grooming 预测的:模型在训练期间读到的关于这些主题的亲克里姆林宫内容,比底层经验记录所应有的更多,于是输出权重相应地偏移。Pravda 案是概念验证;论文主张目前还有许多更小规模的同类。
对在做 AI 产品的开发者来说,实际含义并不微妙。通过笔迹或行为信号检测单个机器人账号,比 2017 年的检测文献假设的更难了。保卫训练语料现在是自成一类的问题,和保卫模型不同:来源追踪工具、来源多样性审计、对单一域名或集群可施加影响的硬性上限——这些都是真实的工程工作,而且大部分还没在做。论文没有提出细致的防御方案,这是公平的;把威胁清楚地命名出来本身就是贡献。诚实的结论是:以"过滤模型输出"为中心的传统"AI 安全"框架,对那些目标是改变下一代模型学到什么、而不是越狱当前模型的攻击者来说,越来越不够用。经济性站在攻击者一边:机器人文本便宜,爬虫在规模上很难分辨合成和真实。
