GitHub宣佈將從4月24日開始使用Copilot Free、Pro和Pro+用戶的互動資料來訓練和改進其AI模型,除非用戶明確選擇退出。這一變化影響數百萬開發者,但顯著排除了Copilot Business和Enterprise客戶,他們的資料仍受保護。GitHub將收集提示、程式碼建議、接受的輸出、檔案名稱、儲存庫結構和用戶回饋來優化模型效能。

這一舉措使GitHub完全符合整個AI產業對資料的飢渴方式,用戶互動成為更好模型的訓練燃料。GitHub首席產品長Mario Rodriguez將其定義為AI開發的必需品,聲稱公司需要「像你這樣的開發者的真實世界互動資料」。時機很說明問題——隨著AI程式設計助手超越其在公共程式碼上的初始訓練而成熟,公司需要互動資料來了解開發者實際如何工作,而不僅僅是程式碼在儲存庫中的樣子。

該政策創建了一個明確的雙層系統:個人開發者和小團隊成為資料來源,而企業客戶保持資料隱私保護。GitHub承諾不與第三方AI提供商分享訓練資料,將其保持在Microsoft生態系統內。公司還聲明私有儲存庫「靜止狀態」的內容不會用於訓練,儘管處理過的互動資料和儲存程式碼之間的區別可能會讓一些用戶感到困惑。

如果開發者想避免為GitHub的模型訓練做貢獻,應在4月24日之前檢查他們的隱私設定。那些已經選擇退出的人仍受保護,但預設選擇加入的方法意味著大多數用戶將在不知不覺中成為GitHub訓練資料集的一部分,除非他們採取行動。