一個小型的經紀商生態系統已經出現,用於將以前被忽視的資產類別貨幣化:新創公司在關閉前累積的多年內部通訊。專門處理公司清算的SimpleClosure在過去一年完成了近100次此類交易,向創辦人支付了超過100萬美元,典型交易範圍在每家公司1萬到10萬美元之間。被出售的資料不是通用日誌。它們是Slack訊息封存、電子郵件通訊、Jira工單,以及多TB級的Google Drive目錄,代表了每位員工在公司整個生命週期內的日常工作產品。AI訓練資料經紀商Protege(CEO Bobby Samuels領導)審核並將資料轉售給模型開發者。在CEO Shanna Johnson領導下關閉的13年轉錄公司Cielo24是一個有據可查的例子。法律基礎平凡:員工簽署了涵蓋工作材料的IP協議。倫理基礎有爭議。

隱私機制值得仔細審視。雇用合約中的標準IP指派條款賦予雇主對工作產品的權利,但並未考慮關閉後出售個人但與工作相鄰的通訊。Slack私訊、坦誠的電子郵件交流,以及公司內部生活的連續文字,技術上是工作產品,但實際上是人際關係的記錄。AI和數位政策中心的創辦人Marc Rotenberg明確指出了這一差距。匿名化是顯而易見的緩解措施,但Protege的Bobby Samuels已經承認不完善的匿名化可能洩漏到模型輸出中。風險模式類似於2010年代初期的醫療記錄匿名化辯論,研究表明所謂的去識別化資料往往包含足夠的訊號來重新識別特定個人。同樣的漏洞適用於這裡,附加的轉折是資料集包括員工對同事做出但不會公開做出的那種個人披露。

宏觀圖景是高品質的對話訓練資料是稀缺資源,價格正在上漲。Reddit與Google的許可交易為2024年對話資料每年6000萬美元;Stack Overflow與OpenAI處於類似數量級。隨著公共網路資料被耗盡和爭議,AI開發者正在積極追求封閉對話語料庫,捕獲專業人士在工作環境中實際如何彼此交談。倒閉新創公司的Slack正好符合那個形象。它們包含技術討論、客戶服務對話、內部辯論,以及預訓練資料集難以從公共來源複製的那種富含上下文的來回交流。AI實驗室的經濟邏輯很清楚。否則必須支付資料銷毀服務費用的關閉中創辦人的經濟邏輯也很清楚。錯位在於這兩方與第三方——員工,他們的通訊才是真正的資產。

對builders來說,實際要點是雙重的。首先,如果你在建構或授權AI模型,訓練資料的來源問題變得更加尖銳。你的訓練集是否包括最終使用者會認為私密的資料,越來越成為採購盡職調查問題,而不是腳註。其次,如果你是員工或曾經是,你對工作通訊的生命週期和用途的合理期望不再符合現實。一種防禦性做法是:審視你在雇主控制的管道中說過的話,假設這些訊息中非零的一部分將最終進入訓練資料集,多年後可能在某個推理輸出中被歸因於你。這是一個令人沮喪的框架,但它是當前的現實。行業遊說或立法行動可能會改變它。到今天為止,正在發生的事情正在發生,法律基礎設施是寬鬆的。