Talkie-1930 lança LLM 13B treinado apenas em inglês pré-1931 para sondar o que modelos era-web memorizam vs aprendem

Uma pequena equipe sem fins lucrativos liderada por Nick Levine, David Duvenaud (Toronto) e Alec Radford (anteriormente arquiteto da linhagem GPT na OpenAI) lançou o Talkie-1930 hoje, um modelo de linguagem de pesos abertos de 13B parâmetros treinado do zero em 260 bilhões de tokens de texto inglês estritamente pré-1931. O corpus são livros, jornais, periódicos, revistas científicas, patentes e direito, todos de fontes de domínio público, o que exigiu um trabalho substancial de transcrição OCR porque a equipe descobriu que a saída de OCR de prateleira produzia apenas 30% da eficiência de aprendizado do texto transcrito por humanos. Dois checkpoints são públicos no HuggingFace sob Apache 2.0: talkie-1930-13b-base para completações cruas e talkie-1930-13b-it ajustado por instruções via otimização de preferência direta com Claude Sonnet 4.6 como juiz. O modelo precisa de pelo menos uma GPU de 28 GB para inferência local. O trabalho tem a estrutura de um artefato de pesquisa em vez de um modelo de fronteira competitivo, mas o objetivo de pesquisa é incomumente concreto: produzir um modelo base cujo corte de conhecimento é 31 de dezembro de 1930, contra o qual a equipe também treinou um «gêmeo moderno» de arquitetura 13B idêntica em dados web contemporâneos, para fazer experimentos controlados sobre o que os modelos de linguagem atuais realmente aprendem versus memorizam.

As partes tecnicamente interessantes são a engenharia de dados e o argumento de controle-contaminação, ambos úteis para construtores mesmo que eles não implantem este modelo. O pipeline de filtragem de anacronismo é sua própria contribuição: a equipe construiu um classificador de anacronismo baseado em n-gramas em nível de documento para pegar material de data posterior que tinha escorregado em fontes ostensivamente pré-1931, porque uma vez que um scan de jornal de 1950 vaza no conjunto de treinamento o limite temporal está quebrado. A descoberta de qualidade OCR é acionável de uma maneira que não tem sido enfatizada o suficiente na indústria: uma penalidade de eficiência de 70% para OCR barato sobre transcrição manual significa que qualquer equipe treinando em texto histórico ou escaneado e usando OCR de prateleira está deixando a maioria do sinal de aprendizado em cima da mesa. O detalhe de ajuste por instruções também é inteligente; a divisão IT foi gerada inteiramente a partir de fontes históricas para manter o limite temporal, com um modelo moderno apenas usado como juiz de preferência, o que deixa o modelo produzir comportamento de seguir instruções sem contrabandear conhecimento factual moderno.

A implicação mais ampla é que Talkie-1930 é um instrumento de benchmark utilizável para o problema de contaminação que tem sido a vergonha da avaliação de modelos de fronteira desde o GPT-4. Cada benchmark público é raspado, indexado e absorvido na próxima rodada de treinamento, o que torna a pontuação nesses benchmarks na fronteira cada vez mais sem sentido. Um modelo cujos dados de treinamento terminam em 1930 não pode ter memorizado nenhuma avaliação pós-1930, então qualquer tarefa que toque material após essa data pode ser usada para medir generalização pura. Este é o mesmo truque que pessoas tentaram com conjuntos de teste cuidadosamente separados, mas Talkie-1930 levanta a barra para «qualquer coisa nos últimos 96 anos», o que remove uma classe muito maior de vazamento inadvertido. A comparação do «gêmeo moderno» é o que torna isso portante: paridade em compreensão de linguagem central quando perguntas anacrônicas são filtradas é o resultado que os autores estão especificamente apontando, o que sugere que uma porção significativa do que os modelos de fronteira parecem «aprender» dos dados contemporâneos é de fato mais próxima de memorização. Se esse resultado se sustenta sob replicação independente é a pergunta que os próximos 30 dias responderão, mas o artefato em si é agora público e reproduzível.

Para construtores, três coisas concretas importam. Primeiro, se você está rodando avaliações de benchmark e quer uma linha de base resistente à contaminação, talkie-1930-13b-it é agora o grupo de controle padrão nessa classe 13B. Qualquer um publicando reivindicações de capacidade nessa escala deveria comparar contra ele. Segundo, a lição de qualidade OCR generaliza: se seu domínio envolve documentos históricos, manuais escaneados, mídia de arquivo ou qualquer corpus não-legível-por-máquina, a lacuna entre OCR barato e transcrição limpa é muito maior do que o custo por token torna óbvio. O benchmark correto não é «o OCR parece legível?» mas «qual é o custo de perplexidade-por-token relativo ao texto limpo?», e o número do Talkie-1930 é 3,3x. Terceiro, o padrão metodológico de treinar um modelo limitado temporalmente mais um gêmeo moderno é replicável em outros domínios. Uma equipe construindo um modelo médico ou jurídico poderia em princípio fazer a mesma coisa: treinar em fontes pré-corte curadas, segurar material de avaliação pós-corte e usar a lacuna para separar generalização de memorização. O trabalho do Talkie-1930 é pequeno em compute relativo ao treinamento de fronteira mas grande em infraestrutura metodológica, e a metodologia é o que vai ser reutilizado.

Talkie-1930 lança LLM 13B treinado apenas em inglês pré-1931 para sondar o que modelos era-web memorizam vs aprendem

Mais notícias