2026 年 3 月一份安静的 FTC 和解本周在产出响亮的后果:Clarifai 删除了 2014 年从 OkCupid 拿到的 300 万张照片,以及所有基于这些数据训练的模型。路透社首发,TechCrunch 跟进。这起数据共享安排始于 Clarifai 创始人兼 CEO Matthew Zeiler 给同事的一封邮件:「我们现在正在收集数据,刚意识到 OKCupid 必然有一大堆牛逼的数据。」彼时 OkCupid 高管持有 Clarifai 股权,这种利益冲突在 2026 年看起来比在 2014 年更糟。
AI 侧的后果比照片删除本身更有意思。300 万张人脸照片是一个有用但并不稀奇的训练集,Clarifai 不缺数据。FTC 协议同时删除了所有基于 OkCupid 数据训练过的模型,这是一个不同且困难得多的类别。2026 年的「模型删除」意味着:权重不见了、嵌入不见了、从这些模型微调得到的 fine-tune 不见了,加上依赖于它们的衍生分类器或客户部署。2019 年《纽约时报》的一篇文章最早披露 Clarifai 曾基于这份数据集构建从人脸估计年龄、性别与种族的工具——这正是会催生下游部署的那类模型,也正是在实践中清理既昂贵又难以彻底的地方。
两个法律点值得点名。其一,FTC 未能施加罚款。按其治理法规,这是「该类型首次违规」,FTC 只能要求合规与禁止。OkCupid 与 Match Group 被永久禁止在数据如何收集与分享上作误导,或协助他人作误导。他们未承认指控。其二,2014 年的数据侵占与 2026 年的后果之间有 12 年落差,这提醒我们:训练数据的责任在长时间尺度上累积。2019 年《纽约时报》的报道触发了 FTC 调查;2026 年 3 月的和解在本月产出了实际的删除。如果你今天用用户数据做训练,计时从此刻开始,而其半衰期比你发出的绝大多数模型都长。
对 builder 来说有两点要记。其一,「删掉模型,不只是删掉照片」的结果正在成为新兴的监管模板。当 GDPR 式的被遗忘权应用到 ML 系统上,这就是它真实的样子。你的数据血缘文档(哪个模型基于哪个数据集训练、哪个部署用了哪个模型)如今是一件法律物件,而不只是治理礼仪;如果你不能按监管方的时间表提交这份血缘,你最终会为了防守而删掉比本需要删除的更多的模型。其二,数据产生方公司与 AI 训练公司之间的高管交叉持股现在是一个具体的责任类别。Zeiler 的邮件之所以要命,不是因为语气粗俗,而是因为 OkCupid 高管持有 Clarifai 股权——这让数据共享看起来像自我交易,而不是合法的整合。「相信我们吧,我们有隐私政策」这种姿态,当投资与邮件讲出不同的故事时,在法律上是撑不住的。
