A Origin Lab anunciou na quarta-feira uma rodada seed de US$ 8 milhões, liderada pela Lightspeed Ventures com SV Angel, Eniac, Seven Stars e FPV, mais cheques angel do cofundador da Twitch Kevin Lin e do fundador da Cruise Kyle Vogt. O produto é um marketplace: os estúdios de videogame vendem acesso licenciado aos seus assets e footage de gameplay, os labs de world-model compram dados de treino, e a Origin fica no meio convertendo os artefatos de jogo em forma ingerível para modelos — runs de rendering, captura automatizada de walkthrough, extração de assets. A co-CEO Anne-Margot Rodde nomeou dois compradores específicos na matéria do TechCrunch: a AMI Labs de Yann LeCun e a World Labs de Fei-Fei Li. O pitch é estrutural mais que inovador: world models precisam de dados sobre como objetos se movem no espaço, motores de jogo produzem esses dados em escala, e não havia um canal licenciado — até agora — para que os labs acessem isso sem exposição jurídica.
O incidente Sora-Twitch de dezembro de 2024 é o recibo anterior. O primeiro lançamento do Sora da OpenAI pareceu regurgitar footage de videogames populares e streamers da Twitch, sugerindo que o modelo havia sido treinado em conteúdo de stream raspado — um mini escândalo na época, mas uma admissão estrutural de que labs frontier já estavam minerando footage de jogo sem licença. A Amazon foi publicamente aberta sobre seu interesse em dados de treino derivados da Twitch. A proposta da Origin Lab é converter essa raspagem silenciosa e juridicamente exposta em uma câmara de compensação com licenças explícitas, que é o mesmo arco que Getty Images e Shutterstock empurraram nos labs de imagem generativa em 2024. Faraz Fatemi da Lightspeed colocou a lógica do mercado de capitais em termos simples: "Vimos como o escalonamento de receita pode ser afiado para vendors de dados que servem aos labs grandes. Esses são negócios muito bem capitalizados, e o gargalo para todos eles são os dados".
A leitura ecossistêmica aqui é que dados de world-model são a camada debaixo de tudo o que importa para builders em IA embarcada. O humanoide G1 da Unitree por US$ 15 mil (coberto mais cedo nesta semana) precisa de uma policy visão-linguagem-ação para fazer qualquer coisa útil; essa policy precisa de um world model que entenda dinâmica física; esse modelo precisa de dados de treino com movimento de objetos, atrito de superfície, oclusão, variação de iluminação — exatamente o que motores de jogo produzem como subproduto de rodar gameplay. O incidente Sora mostrou que labs já estavam pegando esses dados; a Origin Lab aposta que a função procurement se move de "raspar a Twitch e rezar" para "comprar um bundle licenciado da Origin". A nomeação de LeCun e Li é a parte que mais importa — dois dos labs mais críveis do campo de world-model estão dispostos a ser citados como compradores, o que é a mais forte validação inicial possível.
Para builders trabalhando em IA física, robótica ou geração de vídeo: acompanhe quais estúdios de jogo de fato assinam com a Origin Lab — Epic, Unity, Take-Two e as grandes editoras têm posições de IP muito diferentes sobre conteúdo gerado por jogadores versus saída de motor, e a primeira leva de parcerias vai revelar quem está realmente disposto a licenciar. Para todos os outros, o sinal subjacente é que a camada de dados de treino de IA está se bifurcando em vendors especializados: Scale e Surge para dados de preferência rotulados por humanos, Common Crawl e os sucessores do Books3 para texto, e agora a Origin Lab (mais prováveis concorrentes) para dados espaciais/de dinâmica. A suposição "tudo é texto" que abasteceu a primeira onda do transformer não é mais o gargalo; obter dados de movimento em escala e sob licença sim. A seed de US$ 8 mi da Origin é pequena mas o padrão de procurement para o qual ela aponta é grande.
