GitHub a annoncé qu'elle commencerait à utiliser les données d'interaction des utilisateurs Copilot Free, Pro et Pro+ pour entraîner et améliorer ses modèles IA à partir du 24 avril, à moins que les utilisateurs ne refusent explicitement. Ce changement affecte des millions de développeurs mais exclut notamment les clients Copilot Business et Enterprise, dont les données restent protégées. GitHub collectera les prompts, suggestions de code, sorties acceptées, noms de fichiers, structure des dépôts et commentaires des utilisateurs pour affiner la performance des modèles.

Cette décision place GitHub directement dans la lignée de l'approche affamée de données de l'industrie IA en général, où les interactions des utilisateurs deviennent le carburant d'entraînement pour de meilleurs modèles. Le CPO de GitHub Mario Rodriguez présente cela comme essentiel pour le développement IA, déclarant que l'entreprise a besoin de « données d'interaction du monde réel de développeurs comme vous ». Le timing est révélateur—alors que les assistants de codage IA évoluent au-delà de leur formation initiale sur du code public, les entreprises ont besoin de données d'interaction pour comprendre comment les développeurs travaillent vraiment, pas juste à quoi ressemble le code dans les dépôts.

La politique crée un système à deux niveaux clair : les développeurs individuels et petites équipes deviennent des sources de données, tandis que les clients Enterprise maintiennent les protections de confidentialité des données. GitHub promet de ne pas partager les données d'entraînement avec des fournisseurs IA tiers, les gardant dans l'écosystème Microsoft. L'entreprise déclare aussi que le contenu des dépôts privés « au repos » ne sera pas utilisé pour l'entraînement, bien que la distinction entre les données d'interaction traitées et le code stocké puisse confondre certains utilisateurs.

Les développeurs devraient réviser leurs paramètres de confidentialité avant le 24 avril s'ils veulent éviter de contribuer à l'entraînement des modèles de GitHub. Ceux qui ont déjà refusé restent protégés, mais l'approche d'acceptation par défaut signifie que la plupart des utilisateurs feront inconsciemment partie du jeu de données d'entraînement de GitHub à moins qu'ils n'agissent.