一个小型的经纪商生态系统已经出现,用于将以前被忽视的资产类别货币化:初创公司在关闭前积累的多年内部通信。专门处理公司清算的SimpleClosure在过去一年完成了近100次此类交易,向创始人支付了超过100万美元,典型交易范围在每家公司1万到10万美元之间。被出售的数据不是通用日志。它们是Slack消息归档、电子邮件通信、Jira工单,以及多TB级的Google Drive目录,代表了每位员工在公司整个生命周期内的日常工作产品。AI训练数据经纪商Protege(CEO Bobby Samuels领导)审核并将数据转售给模型开发者。在CEO Shanna Johnson领导下关闭的13年转录公司Cielo24是一个有据可查的例子。法律基础平凡:员工签署了涵盖工作材料的IP协议。伦理基础有争议。

隐私机制值得仔细审视。雇佣合同中的标准IP分配条款赋予雇主对工作产品的权利,但并未考虑关闭后出售个人但与工作相邻的通信。Slack私信、坦诚的电子邮件交流,以及公司内部生活的连续文本,技术上是工作产品,但实际上是人际关系的记录。AI和数字政策中心的创始人Marc Rotenberg明确指出了这一差距。匿名化是显而易见的缓解措施,但Protege的Bobby Samuels已经承认不完善的匿名化可能泄漏到模型输出中。风险模式类似于2010年代初期的医疗记录匿名化辩论,研究表明所谓的去识别化数据往往包含足够的信号来重新识别特定个人。同样的漏洞适用于这里,附加的转折是数据集包括员工对同事做出但不会公开做出的那种个人披露。

宏观图景是高质量的对话训练数据是稀缺资源,价格正在上涨。Reddit与谷歌的许可交易为2024年对话数据每年6000万美元;Stack Overflow与OpenAI处于类似数量级。随着公共互联网数据被耗尽和争议,AI开发者正在积极追求封闭对话语料库,捕获专业人士在工作环境中实际如何彼此交谈。倒闭初创公司的Slack正好符合那个画像。它们包含技术讨论、客户服务对话、内部辩论,以及预训练数据集难以从公共来源复制的那种富含上下文的来回交流。AI实验室的经济逻辑很清楚。否则必须支付数据销毁服务费用的关闭中创始人的经济逻辑也很清楚。错位在于这两方与第三方——员工,他们的通信才是真正的资产。

对builders来说,实际要点是双重的。首先,如果你在构建或许可AI模型,训练数据的来源问题变得更加尖锐。你的训练集是否包括最终用户会认为私密的数据,越来越成为采购尽职调查问题,而不是脚注。其次,如果你是员工或曾经是,你对工作通信的生命周期和用途的合理期望不再符合现实。一种防御性做法是:审视你在雇主控制的渠道中说过的话,假设这些消息中非零的一部分将最终进入训练数据集,多年后可能在某个推理输出中被归因于你。这是一个令人沮丧的框架,但它是当前的现实。行业游说或立法行动可能会改变它。到今天为止,正在发生的事情正在发生,法律基础设施是宽松的。