Talkie-1930 发布只在 1931 年前英文上训练的 13B LLM，用来探究网络时代模型是记住还是真的学到了

一个由 Nick Levine、David Duvenaud（多伦多）和 Alec Radford（前 OpenAI GPT 系列架构师）领头的小型非营利团队今天发布了 Talkie-1930——一个在 2600 亿 token 严格 1931 年前英文文本上从零训练的 13B 参数开源权重语言模型。语料是图书、报纸、期刊、科学期刊、专利和判例法，全部来自公共领域来源，这要求做大量 OCR 转录工作，因为团队发现现成 OCR 输出的学习效率只有人工转录文本的 30%。HuggingFace 上 Apache 2.0 公开两个 checkpoint：talkie-1930-13b-base 用于原始补全，talkie-1930-13b-it 通过 DPO 用 Claude Sonnet 4.6 作裁判做了指令微调。模型本地推理至少需要 28 GB 显存。这件作品的形态更像研究产物而不是有竞争力的前沿模型，但研究目标少见地具体：做一个知识截止日为 1930 年 12 月 31 日的基础模型，团队同时训练了一个相同 13B 架构、用当代网络数据的"现代双胞胎"，以便对当今语言模型究竟是真在学还是在记做对照实验。

技术上有意思的部分是数据工程和污染控制的论证，对工程师有用——即便他们不会部署这个模型。时代错位过滤管道本身就是一项贡献：团队建了一个文档级的 n-gram 时代错位分类器，用来抓出滑入"看起来 1931 年前"的来源里、其实是后期日期的材料——一旦一份 1950 年代的报纸扫描泄漏到训练集里，时间边界就破了。OCR 质量这个发现在工业界没被强调得够：便宜 OCR 相对人工转录的 70% 效率惩罚意味着，任何在历史或扫描文本上训练、用现成 OCR 的团队，都把大部分学习信号留在了桌上。指令微调的细节也聪明；IT 部分完全用历史来源生成以保住时间边界，仅用现代模型作偏好裁判，让模型产生指令跟随行为而不偷渡进现代事实知识。

更广含义是 Talkie-1930 是一个可用的基准工具，用来对治从 GPT-4 起一直困扰前沿模型评估的污染问题。每个公开基准都被爬取、索引、吸收进下一次训练，这让前沿水平上的基准打分越来越没意义。一个训练数据止于 1930 年的模型，不可能记住任何 1930 年之后的评测，所以任何触及该日期之后材料的任务都可用来衡量纯泛化能力。这跟人们用精心保留的测试集是同一个把戏，但 Talkie-1930 把门槛抬高到"过去 96 年里的任何东西"，这去掉了一大类无意泄漏。"现代双胞胎"对比是让这件事真正承重的关键：当时代错位的问题被过滤掉之后，核心语言理解上能达到平价——这正是作者特意指出的结果，暗示前沿模型从当代数据中"学到"的东西里有相当一部分实际上更接近记忆。这个结论能否经得住独立复现是接下来 30 天会回答的问题，但成果本身现在已经公开、可复现。

对工程师来说，三件具体事情重要。第一，如果你在跑基准评估、想要一个抗污染的对照基线，talkie-1930-13b-it 现在是该 13B 级别里的标准对照组。任何在这个规模上发表能力主张的人都应该跟它对比。第二，OCR 质量这堂课能推广：如果你的领域涉及历史文献、扫描手册、档案媒体或任何机器不可读的语料，便宜 OCR 和干净转录之间的差距比按 token 成本看到的要大得多。正确的基准不是"OCR 看起来读得通吗"，而是"相对于干净文本的每 token 困惑度成本是多少"——Talkie-1930 给的数字是 3.3 倍。第三，"训练一个时间受限模型 + 一个现代双胞胎"这个方法学模式在其他领域是可复制的。建医疗或法律模型的团队原则上可以做同样的事：在截止前的精选来源上训练、把截止后的评估材料留作 holdout，用差距来分离泛化和记忆。Talkie-1930 的工作在算力上相对前沿训练规模是小的，但在方法学基础设施上是大的，会被复用的就是方法学。

Talkie-1930 发布只在 1931 年前英文上训练的 13B LLM，用来探究网络时代模型是记住还是真的学到了

更多新闻