Meta a suspendu indéfiniment tout travail avec la firme de sous-traitance de données Mercor suite à une faille de sécurité qui a potentiellement exposé des datasets d'entraînement IA propriétaires, ont confirmé des sources à WIRED. L'incident, que Mercor a divulgué au personnel le 31 mars, semble lié à une attaque de la chaîne d'approvisionnement sur LiteLLM qui a compromis « des milliers d'organisations à travers le monde ». OpenAI enquête sur l'étendue de l'exposition des données mais continue ses projets actuels avec Mercor, tandis que d'autres grands laboratoires d'IA réévaluent leurs relations avec ce fournisseur.
Cette faille souligne une vulnérabilité critique dans le développement d'IA : le pipeline de génération de données externalisées. Mercor, avec ses concurrents comme Scale AI et Surge, gère d'énormes réseaux de contractuels humains qui créent les datasets d'entraînement sur mesure qui alimentent des modèles comme ChatGPT et Claude. Ces datasets sont considérés comme de la propriété intellectuelle fondamentale—ils révèlent exactement comment les laboratoires d'IA abordent l'entraînement, quelles données ils priorisent, et potentiellement leurs avantages concurrentiels. Le secret entourant ces opérations a créé une industrie de l'ombre où une poignée de fournisseurs détiennent les clés des méthodologies d'entraînement de tout l'écosystème IA.
Le timing ne pourrait pas être pire pour une industrie déjà parano à propos des concurrents chinois et du vol de propriété intellectuelle parrainé par l'État. La pause immédiate de Meta—coupant les paiements des contractuels en plein projet—suggère que l'exposition potentielle va au-delà d'incidents de sécurité de routine. Le fait que les contractuels travaillant sur l'initiative Chordus de Meta (enseigner à l'IA à vérifier les réponses en utilisant plusieurs sources internet) se sont soudainement fait dire que les projets étaient en cours de « réévaluation » indique que cette faille a peut-être révélé des approches d'entraînement spécifiques que Meta considère stratégiquement sensibles.
Pour les développeurs, cet incident expose à quel point la chaîne d'approvisionnement d'entraînement IA est devenue concentrée et fragile. Si vous développez des produits IA, considérez combien de votre avantage concurrentiel dépend de données d'entraînement qui sont en fait contrôlées par des fournisseurs tiers qui n'ont peut-être pas une sécurité de niveau entreprise. La consolidation autour de quelques fournisseurs de données crée un risque systémique que l'industrie a largement ignoré.
