Talkie-1930 發布只在 1931 年前英文上訓練的 13B LLM，用來探究網路時代模型是記住還是真的學到了

一個由 Nick Levine、David Duvenaud（多倫多）和 Alec Radford（前 OpenAI GPT 系列架構師）領頭的小型非營利團隊今天發布了 Talkie-1930——一個在 2600 億 token 嚴格 1931 年前英文文本上從零訓練的 13B 參數開源權重語言模型。語料是圖書、報紙、期刊、科學期刊、專利和判例法，全部來自公共領域來源，這要求做大量 OCR 轉錄工作，因為團隊發現現成 OCR 輸出的學習效率只有人工轉錄文本的 30%。HuggingFace 上 Apache 2.0 公開兩個 checkpoint：talkie-1930-13b-base 用於原始補全，talkie-1930-13b-it 透過 DPO 用 Claude Sonnet 4.6 作裁判做了指令微調。模型本地推論至少需要 28 GB 顯存。這件作品的形態更像研究產物而不是有競爭力的前沿模型，但研究目標少見地具體：做一個知識截止日為 1930 年 12 月 31 日的基礎模型，團隊同時訓練了一個相同 13B 架構、用當代網路資料的"現代雙胞胎"，以便對當今語言模型究竟是真在學還是在記做對照實驗。

技術上有意思的部分是資料工程和污染控制的論證，對工程師有用——即便他們不會部署這個模型。時代錯位過濾管道本身就是一項貢獻：團隊建了一個文件級的 n-gram 時代錯位分類器，用來抓出滑入"看起來 1931 年前"的來源裡、其實是後期日期的材料——一旦一份 1950 年代的報紙掃描洩漏到訓練集裡，時間邊界就破了。OCR 品質這個發現在工業界沒被強調得夠：便宜 OCR 相對人工轉錄的 70% 效率懲罰意味著，任何在歷史或掃描文本上訓練、用現成 OCR 的團隊，都把大部分學習訊號留在了桌上。指令微調的細節也聰明；IT 部分完全用歷史來源生成以保住時間邊界，僅用現代模型作偏好裁判，讓模型產生指令跟隨行為而不偷渡進現代事實知識。

更廣含義是 Talkie-1930 是一個可用的基準工具，用來對治從 GPT-4 起一直困擾前沿模型評估的污染問題。每個公開基準都被爬取、索引、吸收進下一次訓練，這讓前沿水平上的基準打分越來越沒意義。一個訓練資料止於 1930 年的模型，不可能記住任何 1930 年之後的評測，所以任何觸及該日期之後材料的任務都可用來衡量純泛化能力。這跟人們用精心保留的測試集是同一個把戲，但 Talkie-1930 把門檻抬高到"過去 96 年裡的任何東西"，這去掉了一大類無意洩漏。"現代雙胞胎"對比是讓這件事真正承重的關鍵：當時代錯位的問題被過濾掉之後，核心語言理解上能達到平價——這正是作者特意指出的結果，暗示前沿模型從當代資料中"學到"的東西裡有相當一部分實際上更接近記憶。這個結論能否經得住獨立複現是接下來 30 天會回答的問題，但成果本身現在已經公開、可複現。

對工程師來說，三件具體事情重要。第一，如果你在跑基準評估、想要一個抗污染的對照基線，talkie-1930-13b-it 現在是該 13B 級別裡的標準對照組。任何在這個規模上發表能力主張的人都應該跟它對比。第二，OCR 品質這堂課能推廣：如果你的領域涉及歷史文獻、掃描手冊、檔案媒體或任何機器不可讀的語料，便宜 OCR 和乾淨轉錄之間的差距比按 token 成本看到的要大得多。正確的基準不是"OCR 看起來讀得通嗎"，而是"相對於乾淨文本的每 token 困惑度成本是多少"——Talkie-1930 給的數字是 3.3 倍。第三，"訓練一個時間受限模型 + 一個現代雙胞胎"這個方法學模式在其他領域是可複製的。建醫療或法律模型的團隊原則上可以做同樣的事：在截止前的精選來源上訓練、把截止後的評估材料留作 holdout，用差距來分離泛化和記憶。Talkie-1930 的工作在算力上相對前沿訓練規模是小的，但在方法學基礎設施上是大的，會被複用的就是方法學。

Talkie-1930 發布只在 1931 年前英文上訓練的 13B LLM，用來探究網路時代模型是記住還是真的學到了

更多新聞