Startups cerradas están vendiendo años de mensajes Slack, emails y tickets Jira como datos de entrenamiento IA, $10k-$100k por empresa

Un pequeño ecosistema de corredores ha emergido para monetizar una clase de activos previamente pasada por alto: los años de comunicaciones internas acumuladas por startups antes de cerrar. SimpleClosure, un especialista en wind-down, ha completado casi 100 de estas transacciones en el último año, pagando más de 1 millón de dólares a fundadores con tratos típicos que van de 10,000 a 100,000 dólares por empresa. Los datos que se venden no son logs genéricos. Son archivos de mensajes Slack, correspondencia por email, tickets Jira, y directorios Google Drive multi-terabyte que representan el producto de trabajo diario de cada empleado durante la vida de la empresa. Protege, un corredor de datos de entrenamiento IA dirigido por el CEO Bobby Samuels, valida y revende los datos a desarrolladores de modelos. Cielo24, una empresa de transcripción de 13 años que cerró bajo la CEO Shanna Johnson, es uno de los ejemplos documentados. La base legal es mundana: los empleados firmaron acuerdos de PI cubriendo materiales de trabajo. La base ética es disputada.

Las mecánicas de privacidad merecen una mirada cuidadosa. Las cláusulas estándar de asignación de PI en contratos de empleo otorgan al empleador derechos sobre el producto de trabajo pero no contemplan la venta post-cierre de comunicaciones personales-pero-adyacentes-al-trabajo. DMs de Slack, intercambios de email cándidos, y el texto corrido de la vida interna de una empresa son técnicamente producto de trabajo pero prácticamente un registro de relaciones humanas. Marc Rotenberg, fundador del Center for AI and Digital Policy, ha señalado esta brecha explícitamente. La anonimización es la mitigación obvia, pero Bobby Samuels de Protege ha reconocido que la anonimización imperfecta puede filtrarse en la salida del modelo. El patrón de riesgo es similar al debate de anonimización de registros médicos de principios de los 2010, donde la investigación mostró que los datos supuestamente desidentificados a menudo contenían suficientes señales para reidentificar individuos específicos. La misma vulnerabilidad aplica aquí, con el giro adicional de que el dataset incluye el tipo de divulgaciones personales que los empleados hacen a colegas pero no harían públicamente.

La foto macro es que los datos de entrenamiento conversacionales de alta calidad son un recurso escaso y el precio sube. El acuerdo de licencia de Reddit con Google fue de 60 millones de dólares al año por datos conversacionales 2024; Stack Overflow con OpenAI estuvo en un orden de magnitud similar. A medida que los datos de internet público se agotan y se disputan, los desarrolladores IA están persiguiendo activamente corpus de conversaciones cerradas que capturen cómo los profesionales realmente se hablan entre sí en contextos de trabajo. Los Slacks de startups cerradas se ajustan a ese perfil precisamente. Contienen discusiones técnicas, diálogos de servicio al cliente, debates internos, y el tipo de intercambios ricos en contexto que los datasets de preentrenamiento luchan por replicar desde fuentes públicas. La lógica económica para los labs IA es clara. La lógica económica para los fundadores en cierre, que de otro modo tienen que pagar por servicios de destrucción de datos, también es clara. La desalineación está entre esas dos partes y el tercero, los empleados, cuyas comunicaciones son el activo real.

Para builders, la lectura práctica es doble. Primero, si construyes o licencias modelos IA, la pregunta de procedencia sobre los datos de entrenamiento se está volviendo más puntiaguda. Si tu conjunto de entrenamiento incluye datos que tus usuarios finales considerarían privados es cada vez más una pregunta de due diligence de aprovisionamiento, no una nota al pie. Segundo, si eres empleado o lo has sido, tu expectativa razonable sobre la duración y uso de tus comunicaciones de trabajo ya no coincide con la realidad. Una práctica defensiva es auditar lo que has dicho en canales controlados por el empleador bajo el supuesto de que una fracción no-cero de esos mensajes terminará en un dataset de entrenamiento, posiblemente atribuida a ti en alguna salida de inferencia años después. Eso es un encuadre deprimente, pero es el operativo. Lobbying industrial o acción legislativa podría cambiarlo. A día de hoy, lo que está pasando está pasando, y la infraestructura legal es permisiva.

Startups cerradas están vendiendo años de mensajes Slack, emails y tickets Jira como datos de entrenamiento IA, $10k-$100k por empresa

Más noticias