一個由 Nick Levine、David Duvenaud(多倫多)和 Alec Radford(前 OpenAI GPT 系列架構師)領頭的小型非營利團隊今天發布了 Talkie-1930——一個在 2600 億 token 嚴格 1931 年前英文文本上從零訓練的 13B 參數開源權重語言模型。語料是圖書、報紙、期刊、科學期刊、專利和判例法,全部來自公共領域來源,這要求做大量 OCR 轉錄工作,因為團隊發現現成 OCR 輸出的學習效率只有人工轉錄文本的 30%。HuggingFace 上 Apache 2.0 公開兩個 checkpoint:talkie-1930-13b-base 用於原始補全,talkie-1930-13b-it 透過 DPO 用 Claude Sonnet 4.6 作裁判做了指令微調。模型本地推論至少需要 28 GB 顯存。這件作品的形態更像研究產物而不是有競爭力的前沿模型,但研究目標少見地具體:做一個知識截止日為 1930 年 12 月 31 日的基礎模型,團隊同時訓練了一個相同 13B 架構、用當代網路資料的"現代雙胞胎",以便對當今語言模型究竟是真在學還是在記做對照實驗。
技術上有意思的部分是資料工程和污染控制的論證,對工程師有用——即便他們不會部署這個模型。時代錯位過濾管道本身就是一項貢獻:團隊建了一個文件級的 n-gram 時代錯位分類器,用來抓出滑入"看起來 1931 年前"的來源裡、其實是後期日期的材料——一旦一份 1950 年代的報紙掃描洩漏到訓練集裡,時間邊界就破了。OCR 品質這個發現在工業界沒被強調得夠:便宜 OCR 相對人工轉錄的 70% 效率懲罰意味著,任何在歷史或掃描文本上訓練、用現成 OCR 的團隊,都把大部分學習訊號留在了桌上。指令微調的細節也聰明;IT 部分完全用歷史來源生成以保住時間邊界,僅用現代模型作偏好裁判,讓模型產生指令跟隨行為而不偷渡進現代事實知識。
更廣含義是 Talkie-1930 是一個可用的基準工具,用來對治從 GPT-4 起一直困擾前沿模型評估的污染問題。每個公開基準都被爬取、索引、吸收進下一次訓練,這讓前沿水平上的基準打分越來越沒意義。一個訓練資料止於 1930 年的模型,不可能記住任何 1930 年之後的評測,所以任何觸及該日期之後材料的任務都可用來衡量純泛化能力。這跟人們用精心保留的測試集是同一個把戲,但 Talkie-1930 把門檻抬高到"過去 96 年裡的任何東西",這去掉了一大類無意洩漏。"現代雙胞胎"對比是讓這件事真正承重的關鍵:當時代錯位的問題被過濾掉之後,核心語言理解上能達到平價——這正是作者特意指出的結果,暗示前沿模型從當代資料中"學到"的東西裡有相當一部分實際上更接近記憶。這個結論能否經得住獨立複現是接下來 30 天會回答的問題,但成果本身現在已經公開、可複現。
對工程師來說,三件具體事情重要。第一,如果你在跑基準評估、想要一個抗污染的對照基線,talkie-1930-13b-it 現在是該 13B 級別裡的標準對照組。任何在這個規模上發表能力主張的人都應該跟它對比。第二,OCR 品質這堂課能推廣:如果你的領域涉及歷史文獻、掃描手冊、檔案媒體或任何機器不可讀的語料,便宜 OCR 和乾淨轉錄之間的差距比按 token 成本看到的要大得多。正確的基準不是"OCR 看起來讀得通嗎",而是"相對於乾淨文本的每 token 困惑度成本是多少"——Talkie-1930 給的數字是 3.3 倍。第三,"訓練一個時間受限模型 + 一個現代雙胞胎"這個方法學模式在其他領域是可複製的。建醫療或法律模型的團隊原則上可以做同樣的事:在截止前的精選來源上訓練、把截止後的評估材料留作 holdout,用差距來分離泛化和記憶。Talkie-1930 的工作在算力上相對前沿訓練規模是小的,但在方法學基礎設施上是大的,會被複用的就是方法學。
