Sullivan & Cromwell,全美最负盛名的律所之一,在曼哈顿联邦破产法庭提交的一份破产动议中,包含了对不存在案例的引证、对美国破产法典段落的错误引用,以及对真实案例的不准确摘要。Martin Glenn 法官收到了律所重组业务联合主管 Andrew Dietderich 的道歉信。这些错误是由对方律师 Boies Schiller Flexner 在常规审阅文件时发现的。消息来源告诉《金融时报》,S&C 拥有 OpenAI ChatGPT 的企业版授权,尽管律所没有正式确认是哪个模型产出了这些错误引证。
这个模式现在已经熟悉到令人沮丧。Morgan & Morgan、Levidow Levidow & Oberman 和一系列较小的律所都已经因为提交 AI 幻觉引证而受到制裁。让这次值得注意的是律所本身:S&C 不是一个独立从业者在 Google 找捷径。这是一家华尔街前五的律所,每小时计费率超过两千美元,有企业级 AI 部署,有资源构建任何想要的验证工作流。幻觉引证还是过去了。失败模式和此前每次事件都一样:律师让模型找支持性案例,模型产出了看起来像支持性案例的东西,律师在没有独立核实这些案例确实存在的情况下签字。
技术现实,给还困惑的人:ChatGPT 没有经过验证的法院判决数据库。它生成的是匹配法律引证通常长什么样的文本。当正确的引证存在于训练数据中,它可以准确重现。当正确的引证不存在或模型不确定时,它依然会产出一个看起来合理的引证,有听起来真实的案例名、听起来真实的判例汇编卷号、听起来真实的页码。没有内部标志说"我编的"。模型不知道自己不知道。企业版授权不改变这点;它改变的是计费和数据保留,不是语言模型在被要求检索事实时编造的根本倾向。
解决办法是运营层面的,不是技术层面的。任何使用 AI 做法律研究的律所都需要一条硬规则:每条引证在摘要签字前都必须独立对照 Westlaw、LexisNexis 或 PACER 验证,验证步骤必须可审计。把检索锚定到真实案例数据库的工具——现在有好几家瞄准这个市场——让工作流更便宜,但不能免除律师核实的义务。S&C 的教训不是 ChatGPT 在法律上独特地差;是即便是有企业级 tooling 的成熟组织,如果工作流不强迫他们,也会跳过验证。法官的耐心快用完了。律协转介和金钱制裁来得更频繁。能熬过这个转型的律所,是那些把模型输出当作待核对草稿、而不是当作待签署成品的律所。
