GitHub宣布将从4月24日开始使用Copilot Free、Pro和Pro+用户的交互数据来训练和改进其AI模型,除非用户明确选择退出。这一变化影响数百万开发者,但显著排除了Copilot Business和Enterprise客户,他们的数据仍受保护。GitHub将收集提示、代码建议、接受的输出、文件名、仓库结构和用户反馈来优化模型性能。

这一举措使GitHub完全符合整个AI行业对数据的饥渴方式,用户交互成为更好模型的训练燃料。GitHub首席产品官Mario Rodriguez将其定义为AI开发的必需品,声称公司需要"像你这样的开发者的真实世界交互数据"。时机很说明问题——随着AI编程助手超越其在公共代码上的初始训练而成熟,公司需要交互数据来了解开发者实际如何工作,而不仅仅是代码在仓库中的样子。

该政策创建了一个明确的双层系统:个人开发者和小团队成为数据源,而企业客户保持数据隐私保护。GitHub承诺不与第三方AI提供商分享训练数据,将其保持在Microsoft生态系统内。公司还声明私有仓库"静止状态"的内容不会用于训练,尽管处理过的交互数据和存储代码之间的区别可能会让一些用户感到困惑。

如果开发者想避免为GitHub的模型训练做贡献,应在4月24日之前检查他们的隐私设置。那些已经选择退出的人仍受保护,但默认选择加入的方法意味着大多数用户将在不知不觉中成为GitHub训练数据集的一部分,除非他们采取行动。