由 UT Austin 与 Microsoft 共同进行、Help Net Security 于 4 月 29 日报道的一项研究,观察了 15 位学术研究者在使用商用 AI 工具 —— Research Rabbit、Elicit AI、ChatGPT —— 进行文献综述、综合写作与思路构建时的行为。研究者们一边工作一边出声思考,其全过程被记录,转录稿揭示出他们围绕两个未解问题所自行搭建的变通做法:prompt 机密性(把未发表工作发往一组数据处理方式不透明的工具)与输出可验证性(证明一条生成出来的引用真正来自哪里)。样本不大,但其行为模式与企业安全团队当下处理员工使用商用 LLM 时所遇问题完全对应。

两种被命名的失败模式提供了有用的词汇。Attribution displacement 指的是 LLM 把准确信息绑定到错误来源 —— 事实是真的,引用却被错误归属。Synthetic blending 指的是 LLM 把虚构论断与合法引用混在同一段输出之中,使得逐项核查变慢且容易漏检。一位参与者描述自己曾就一条不存在的引用对 ChatGPT 提出质疑;模型先道歉,然后又给出了更多虚构的参考文献。15 位参与者中有 7 位将幻觉视为「透明度失败」而非孤立的事实错误 —— 模型并未给出任何信号,告诉用户输出的哪些部分是有依据的、哪些是被插补出来的。在机密性方面,有两位参与者直接表达对训练复用与存储不透明的担忧(「不知道我有多少个人数据被存了下来、存在哪里、谁能看到」);而其底层行为 —— 把未发表的研究问题、草稿假设、专属领域知识粘贴进商用 AI 工具 —— 在样本中普遍存在,与是否表达过担忧无关。

这是一个可识别的模式。研究者就像企业雇员一样,会把敏感内容粘贴进商用 AI 工具,因为这些工具好用,而自托管替代品的成本高。研究把这描述为「制度问责问题」—— 没有一个可见的渠道,可以把 AI 厂商按其所收集、存储或再利用的输入承担责任。同样的缺口也存在于公司之中:员工常规性地把内部文档、代码与战略计划贴进商用 LLM,而没有任何可执行的数据处理保障。两个被命名的失败模式 —— attribution displacement 与 synthetic blending —— 也可推广到学术研究之外。任何会产生引用或被归属来源的论断的系统,都会同时产生这两类失败;任何不同时检测这两者的验证流水线都会让一部分漏过去。

对 builders 而言,三件具体事情。第一,如果你的产品会产出被归属来源的论断(RAG 输出、被总结过的搜索结果、AI 撰写的报告),把对这两种失败模式的检查内置进来。Attribution displacement 可通过重新查询所引来源并校验该具体论断是否被支持来检测;synthetic blending 则可通过在交付输出之前,将每一条被引用的参考与一份权威数据库做 match 来检测。多数生产级 RAG 系统检测第一种、跳过第二种。第二,prompt 机密性这条线将牵动企业采购决策。如果你向企业出售 AI 工具,「你的prompt 不会被用于训练」必须是一条由审计支撑的合同条款,而不是市场宣传里的一句话。UT Austin 这份研究把买方将用以施压的关切正式化了。第三,「透明度失败」是处理幻觉问题的正确框架。用户要的不只是更低的幻觉率 —— 他们要系统标注出哪些输出是有依据的、哪些是被插补出来的。这种「来源溯踪 UI」在几乎所有面向消费者的 AI 产品里都还缺位,而它正是下一轮的差异化战场。