O GitHub anunciou que começará a usar dados de interação de usuários do Copilot Free, Pro e Pro+ para treinar e melhorar seus modelos de IA a partir de 24 de abril, a menos que os usuários explicitamente recusem. A mudança afeta milhões de desenvolvedores, mas notavelmente exclui clientes do Copilot Business e Enterprise, cujos dados permanecem protegidos. O GitHub coletará prompts, sugestões de código, saídas aceitas, nomes de arquivos, estrutura de repositórios e feedback de usuários para refinar o desempenho do modelo.

Esse movimento coloca o GitHub diretamente alinhado com a abordagem faminta por dados da indústria de IA em geral, onde interações de usuários se tornam combustível de treinamento para modelos melhores. O CPO do GitHub Mario Rodriguez apresenta isso como essencial para o desenvolvimento de IA, declarando que a empresa precisa de "dados de interação do mundo real de desenvolvedores como você". O timing é revelador—conforme assistentes de codificação IA amadurecem além de seu treinamento inicial em código público, empresas precisam de dados de interação para entender como desenvolvedores realmente trabalham, não apenas como o código aparece em repositórios.

A política cria um sistema de dois níveis claro: desenvolvedores individuais e equipes pequenas se tornam fontes de dados, enquanto clientes Enterprise mantêm proteções de privacidade de dados. O GitHub promete não compartilhar dados de treinamento com provedores de IA terceirizados, mantendo-os dentro do ecossistema Microsoft. A empresa também declara que conteúdo de repositórios privados "em repouso" não será usado para treinamento, embora a distinção entre dados de interação processados e código armazenado possa confundir alguns usuários.

Desenvolvedores devem revisar suas configurações de privacidade antes de 24 de abril se quiserem evitar contribuir para o treinamento de modelos do GitHub. Aqueles que já recusaram permanecem protegidos, mas a abordagem de inclusão por padrão significa que a maioria dos usuários se tornará inconscientemente parte do conjunto de dados de treinamento do GitHub a menos que tomem ação.