Meta ha suspendido indefinidamente todo trabajo con la firma de contratación de datos Mercor tras una violación de seguridad que potencialmente expuso datasets de entrenamiento de IA propietarios, confirmaron fuentes a WIRED. El incidente, que Mercor divulgó al personal el 31 de marzo, parece vinculado a un ataque de cadena de suministro en LiteLLM que comprometió "miles de organizaciones a nivel mundial". OpenAI está investigando el alcance de la exposición de datos pero continúa proyectos actuales con Mercor, mientras otros grandes laboratorios de IA están reevaluando sus relaciones con el proveedor.
Esta violación resalta una vulnerabilidad crítica en el desarrollo de IA: el pipeline de generación de datos subcontratado. Mercor, junto con competidores como Scale AI y Surge, gestiona redes masivas de contratistas humanos que crean los datasets de entrenamiento personalizados que alimentan modelos como ChatGPT y Claude. Estos datasets se consideran propiedad intelectual central—revelan exactamente cómo los laboratorios de IA abordan el entrenamiento, qué datos priorizan, y potencialmente sus ventajas competitivas. El secretismo alrededor de estas operaciones ha creado una industria en las sombras donde un puñado de proveedores tienen las llaves de las metodologías de entrenamiento de todo el ecosistema de IA.
El momento no podría ser peor para una industria ya paranoica sobre competidores chinos y robo de propiedad intelectual patrocinado por el estado. La pausa inmediata de Meta—cortando pagos de contratistas a mitad de proyecto—sugiere que la exposición potencial va más allá de incidentes de seguridad rutinarios. El hecho de que contratistas trabajando en la iniciativa Chordus de Meta (enseñar a la IA a verificar respuestas usando múltiples fuentes de internet) fueran súbitamente informados que los proyectos estaban siendo "reevaluados" indica que esta violación pudo haber revelado enfoques de entrenamiento específicos que Meta considera estratégicamente sensibles.
Para desarrolladores, este incidente expone cuán concentrada y frágil se ha vuelto la cadena de suministro de entrenamiento de IA. Si estás construyendo productos de IA, considera cuánto de tu ventaja competitiva depende de datos de entrenamiento que en realidad están controlados por proveedores terceros que pueden no tener seguridad de nivel empresarial. La consolidación alrededor de pocos proveedores de datos crea riesgo sistémico que la industria ha ignorado en gran medida.
