Des startups fermées vendent des années de messages Slack, emails et tickets Jira comme données d'entraînement IA, 10k$-100k$ par compagnie

Un petit écosystème de courtiers a émergé pour monétiser une classe d'actifs précédemment négligée: les années de communications internes accumulées par les startups avant leur fermeture. SimpleClosure, un spécialiste de wind-down, a complété presque 100 de ces transactions dans la dernière année, payant plus d'un million de dollars aux fondateurs avec des deals typiques allant de 10 000 à 100 000 dollars par compagnie. Les données vendues ne sont pas des logs génériques. Ce sont des archives de messages Slack, de la correspondance email, des tickets Jira, et des répertoires Google Drive multi-térabytes représentant le produit du travail quotidien de chaque employé pour la durée de vie de la compagnie. Protege, un courtier de données d'entraînement IA dirigé par le CEO Bobby Samuels, valide et revend les données aux développeurs de modèles. Cielo24, une compagnie de transcription de 13 ans qui a fermé sous la CEO Shanna Johnson, est un des exemples documentés. La base légale est banale: les employés ont signé des accords de PI couvrant les matériaux de travail. La base éthique est contestée.

Les mécaniques de vie privée méritent un regard attentif. Les clauses standard d'assignation de PI dans les contrats d'emploi accordent à l'employeur des droits sur le produit du travail mais ne contemplent pas la vente post-fermeture de communications personnelles-mais-adjacentes-au-travail. Les DM Slack, les échanges email candides, et le texte courant de la vie interne d'une compagnie sont techniquement un produit du travail mais pratiquement un enregistrement de relations humaines. Marc Rotenberg, fondateur du Center for AI and Digital Policy, a explicitement signalé cet écart. L'anonymisation est la mitigation évidente, mais Bobby Samuels de Protege a reconnu que l'anonymisation imparfaite peut fuir dans la sortie du modèle. Le pattern de risque est similaire au débat anonymisation-dossiers-médicaux du début des années 2010, où la recherche a montré que les données soi-disant dé-identifiées contenaient souvent assez de signaux pour réidentifier des individus spécifiques. La même vulnérabilité s'applique ici, avec la torsion additionnelle que le dataset inclut le genre de divulgations personnelles que les employés font à des collègues mais ne feraient pas publiquement.

La photo macro est que les données d'entraînement conversationnelles de haute qualité sont une ressource rare et le pricing monte. L'accord de licence de Reddit avec Google était de 60 millions de dollars par an pour les données conversationnelles 2024; Stack Overflow avec OpenAI était à un ordre de grandeur similaire. À mesure que les données internet publiques s'épuisent et sont contestées, les développeurs IA poursuivent activement des corpus de conversations fermées qui capturent comment les professionnels se parlent réellement dans des contextes de travail. Les Slacks de startups fermées correspondent à ce profil précisément. Ils contiennent des discussions techniques, des dialogues de service client, des débats internes, et le genre d'échanges aller-retour riches en contexte que les datasets de pré-entraînement peinent à répliquer depuis des sources publiques. La logique économique pour les labs IA est claire. La logique économique pour les fondateurs en fermeture, qui doivent autrement payer pour des services de destruction de données, est aussi claire. Le mésalignement est entre ces deux parties et le tiers, les employés, dont les communications sont l'actif réel.

Pour les builders, la prise pratique est double. Premièrement, si tu construis ou licencies des modèles IA, la question de provenance sur les données d'entraînement devient plus pointue. Si ton ensemble d'entraînement inclut des données que tes utilisateurs finaux considéreraient comme privées est de plus en plus une question de due diligence d'approvisionnement, pas une note de bas de page. Deuxièmement, si tu es employé ou l'as été, ton attente raisonnable sur la durée de vie et l'usage de tes communications de travail ne correspond plus à la réalité. Une pratique défensive c'est d'auditer ce que tu as dit dans des canaux contrôlés par l'employeur en supposant qu'une fraction non-zéro de ces messages finira dans un dataset d'entraînement, possiblement attribuée à toi dans une sortie d'inférence quelques années plus tard. C'est un cadrage déprimant, mais c'est celui qui opère. Le lobbying industriel ou l'action législative pourraient le changer. En date d'aujourd'hui, ce qui se passe se passe, et l'infrastructure légale est permissive.

Des startups fermées vendent des années de messages Slack, emails et tickets Jira comme données d'entraînement IA, 10k$-100k$ par compagnie

Plus de nouvelles