Talkie-1930 sort un LLM 13B entraîné uniquement sur de l'anglais pré-1931 pour sonder ce que les modèles ère-web mémorisent vs apprennent

Une petite équipe à but non lucratif menée par Nick Levine, David Duvenaud (Toronto) et Alec Radford (anciennement architecte de la lignée GPT chez OpenAI) a sorti Talkie-1930 aujourd'hui, un modèle de langage à poids ouverts de 13 G de paramètres entraîné de zéro sur 260 G de tokens de texte anglais strictement pré-1931. Le corpus est livres, journaux, périodiques, journaux scientifiques, brevets et droit, tous de sources du domaine public, ce qui a exigé un travail substantiel de transcription OCR parce que l'équipe a trouvé que la sortie OCR sur étagère produisait seulement 30 % de l'efficacité d'apprentissage du texte transcrit par humain. Deux points de contrôle sont publics sur HuggingFace sous Apache 2.0 : talkie-1930-13b-base pour des complétions brutes et talkie-1930-13b-it ajusté par instructions via optimisation de préférence directe avec Claude Sonnet 4.6 comme juge. Le modèle a besoin d'au moins un GPU de 28 Go pour l'inférence locale. Le travail a la structure d'un artefact de recherche plutôt qu'un modèle frontière compétitif, mais l'objectif de recherche est inhabituellement concret : produire un modèle de base dont la coupure de connaissance est le 31 décembre 1930, contre lequel l'équipe a aussi entraîné un « jumeau moderne » d'architecture 13B identique sur des données web contemporaines, afin de faire des expériences contrôlées sur ce que les modèles de langage actuels apprennent réellement versus mémorisent.

Les parties techniquement intéressantes sont l'ingénierie des données et l'argument de contrôle-contamination, les deux utiles pour les bâtisseurs même s'ils ne déploieront pas ce modèle. La pipeline de filtrage d'anachronisme est sa propre contribution : l'équipe a bâti un classificateur d'anachronisme basé sur n-grammes au niveau document pour attraper du matériel de date ultérieure qui s'était glissé dans des sources ostensiblement pré-1931, parce qu'une fois qu'un scan de journal des années 1950 fuite dans l'ensemble d'entraînement la borne temporelle est cassée. Le constat de qualité OCR est actionnable d'une façon qui n'a pas été assez soulignée dans l'industrie : une pénalité d'efficacité de 70 % pour OCR bon marché sur la transcription manuelle veut dire que toute équipe qui s'entraîne sur du texte historique ou scanné en utilisant l'OCR sur étagère laisse la majorité du signal d'apprentissage sur la table. Le détail d'ajustement par instructions est aussi habile; la portion IT a été générée entièrement à partir de sources historiques pour garder la borne temporelle, avec un modèle moderne seulement utilisé comme juge de préférence, ce qui laisse le modèle produire un comportement de suivi d'instructions sans contrebander de la connaissance factuelle moderne.

L'implication plus large est que Talkie-1930 est un instrument de référence utilisable pour le problème de contamination qui a été la gêne de l'évaluation des modèles frontière depuis GPT-4. Chaque référence publique se fait gratter, indexer et absorber dans le prochain run d'entraînement, ce qui rend la notation sur ces références à la frontière de plus en plus dénuée de sens. Un modèle dont les données d'entraînement se terminent en 1930 ne peut pas avoir mémorisé une évaluation post-1930, donc toute tâche qui touche du matériel après cette date peut être utilisée pour mesurer la généralisation pure. C'est le même truc que les gens ont essayé avec des ensembles de tests soigneusement mis de côté, mais Talkie-1930 monte la barre à « n'importe quoi dans les 96 dernières années », ce qui retire une classe beaucoup plus large de fuite par inadvertance. La comparaison avec le « jumeau moderne » est ce qui rend ça porteur : la parité sur la compréhension du langage de base quand les questions anachroniques sont filtrées est le résultat que les auteurs soulignent spécifiquement, ce qui suggère qu'une portion significative de ce que les modèles frontière ont l'air d'« apprendre » des données contemporaines est en fait plus proche de la mémorisation. Si ce résultat tient sous une réplication indépendante est la question que les 30 prochains jours répondront, mais l'artefact lui-même est maintenant public et reproductible.

Pour les bâtisseurs, trois choses concrètes comptent. Premièrement, si tu fais tourner des évaluations de référence et veux une référence résistante à la contamination, talkie-1930-13b-it est maintenant le groupe contrôle standard dans cette classe 13B. N'importe qui qui publie des revendications de capacité à cette échelle devrait comparer contre. Deuxièmement, la leçon de qualité OCR se généralise : si ton domaine implique des documents historiques, des manuels scannés, des médias d'archive ou n'importe quel corpus non-lisible-machine, l'écart entre OCR bon marché et transcription propre est beaucoup plus grand que le coût par token le rend évident. La bonne référence n'est pas « est-ce que l'OCR a l'air lisible » mais « quel est le coût de perplexité-par-token relatif au texte propre », et le chiffre de Talkie-1930 est 3,3x. Troisièmement, le motif méthodologique d'entraîner un modèle borné dans le temps plus un jumeau moderne est réplicable dans d'autres domaines. Une équipe qui bâtit un modèle médical ou juridique pourrait en principe faire la même chose : s'entraîner sur des sources curées pré-coupure, mettre de côté du matériel d'évaluation post-coupure et utiliser l'écart pour séparer la généralisation de la mémorisation. Le travail Talkie-1930 est petit en compute relativement à l'entraînement frontière mais grand en infrastructure méthodologique, et la méthodologie est ce qui va se faire réutiliser.

Talkie-1930 sort un LLM 13B entraîné uniquement sur de l'anglais pré-1931 pour sonder ce que les modèles ère-web mémorisent vs apprennent

Plus de nouvelles