Um pequeno ecossistema de corretores emergiu para monetizar uma classe de ativos anteriormente negligenciada: os anos de comunicações internas acumuladas por startups antes de fecharem. A SimpleClosure, especialista em wind-down, completou quase 100 dessas transações no último ano, pagando mais de 1 milhão de dólares a fundadores com acordos típicos variando de 10.000 a 100.000 dólares por empresa. Os dados sendo vendidos não são logs genéricos. São arquivos de mensagens do Slack, correspondência de email, tickets do Jira, e diretórios do Google Drive multi-terabytes representando o produto de trabalho diário de cada funcionário durante a vida da empresa. A Protege, um corretor de dados de treinamento de IA liderado pelo CEO Bobby Samuels, valida e revende os dados a desenvolvedores de modelos. A Cielo24, uma empresa de transcrição de 13 anos que fechou sob a CEO Shanna Johnson, é um dos exemplos documentados. A base legal é mundana: funcionários assinaram acordos de PI cobrindo materiais de trabalho. A base ética é contestada.

A mecânica de privacidade merece um olhar cuidadoso. Cláusulas padrão de cessão de PI em contratos de trabalho concedem ao empregador direitos sobre produto de trabalho mas não contemplam a venda pós-fechamento de comunicações pessoais-mas-adjacentes-ao-trabalho. DMs do Slack, trocas de email francas, e o texto corrente da vida interna de uma empresa são tecnicamente produto de trabalho mas praticamente um registro de relacionamentos humanos. Marc Rotenberg, fundador do Center for AI and Digital Policy, sinalizou explicitamente essa lacuna. A anonimização é a mitigação óbvia, mas Bobby Samuels da Protege reconheceu que anonimização imperfeita pode vazar para a saída do modelo. O padrão de risco é similar ao debate de anonimização de registros médicos do início dos anos 2010, onde pesquisa mostrou que dados supostamente desidentificados frequentemente continham sinais suficientes para reidentificar indivíduos específicos. A mesma vulnerabilidade se aplica aqui, com a torção adicional de que o dataset inclui o tipo de divulgações pessoais que funcionários fazem a colegas mas não fariam publicamente.

A foto macro é que dados conversacionais de treinamento de alta qualidade são um recurso escasso e o preço está subindo. O acordo de licenciamento da Reddit com o Google foi de 60 milhões de dólares por ano por dados conversacionais de 2024; Stack Overflow com OpenAI esteve em ordem de magnitude similar. À medida que dados da internet pública se esgotam e são contestados, desenvolvedores de IA estão ativamente perseguindo corpora de conversas fechadas que capturem como profissionais realmente conversam uns com os outros em contextos de trabalho. Slacks de startups fechadas se encaixam nesse perfil precisamente. Eles contêm discussões técnicas, diálogos de atendimento ao cliente, debates internos, e o tipo de troca rica em contexto que datasets de pré-treinamento têm dificuldade de replicar a partir de fontes públicas. A lógica econômica para os labs de IA é clara. A lógica econômica para fundadores em fechamento, que de outra forma têm que pagar por serviços de destruição de dados, também é clara. O desalinhamento está entre essas duas partes e o terceiro, os funcionários, cujas comunicações são o ativo real.

Para builders, a leitura prática é dupla. Primeiro, se você constrói ou licencia modelos de IA, a questão de proveniência sobre dados de treinamento está ficando mais pontiaguda. Se seu conjunto de treinamento inclui dados que seus usuários finais considerariam privados é cada vez mais uma questão de due diligence de aquisição, não uma nota de rodapé. Segundo, se você é funcionário ou foi, sua expectativa razoável sobre a duração de vida e uso de suas comunicações de trabalho não corresponde mais à realidade. Uma prática defensiva é auditar o que você disse em canais controlados pelo empregador assumindo que uma fração não-zero dessas mensagens vai parar em um dataset de treinamento, possivelmente atribuída a você em alguma saída de inferência anos depois. Isso é um enquadramento deprimente, mas é o operativo. Lobby industrial ou ação legislativa poderia mudar isso. Até hoje, o que está acontecendo está acontecendo, e a infraestrutura legal é permissiva.