GitHub anunció que comenzará a usar datos de interacción de usuarios de Copilot Free, Pro y Pro+ para entrenar y mejorar sus modelos de IA a partir del 24 de abril, a menos que los usuarios explícitamente rechacen. El cambio afecta a millones de desarrolladores pero excluye notablemente a clientes de Copilot Business y Enterprise, cuyos datos permanecen protegidos. GitHub recolectará prompts, sugerencias de código, salidas aceptadas, nombres de archivos, estructura de repositorios y retroalimentación de usuarios para refinar el rendimiento del modelo.

Este movimiento pone a GitHub directamente en línea con el enfoque hambriento de datos de la industria IA en general, donde las interacciones de usuarios se convierten en combustible de entrenamiento para mejores modelos. El CPO de GitHub Mario Rodriguez lo enmarca como esencial para el desarrollo de IA, declarando que la empresa necesita "datos de interacción del mundo real de desarrolladores como tú". El timing es revelador—mientras los asistentes de codificación IA maduran más allá de su entrenamiento inicial en código público, las empresas necesitan datos de interacción para entender cómo los desarrolladores realmente trabajan, no solo cómo se ve el código en repositorios.

La política crea un sistema de dos niveles claro: desarrolladores individuales y equipos pequeños se convierten en fuentes de datos, mientras que los clientes Enterprise mantienen protecciones de privacidad de datos. GitHub promete no compartir datos de entrenamiento con proveedores de IA de terceros, manteniéndolos dentro del ecosistema Microsoft. La empresa también declara que el contenido de repositorios privados "en reposo" no será usado para entrenamiento, aunque la distinción entre datos de interacción procesados y código almacenado puede confundir a algunos usuarios.

Los desarrolladores deberían revisar sus configuraciones de privacidad antes del 24 de abril si quieren evitar contribuir al entrenamiento de modelos de GitHub. Aquellos que ya han rechazado permanecen protegidos, pero el enfoque de inclusión por defecto significa que la mayoría de usuarios se convertirán inconscientemente en parte del conjunto de datos de entrenamiento de GitHub a menos que tomen acción.