Mistral 發表了 OCR 4, 這是一款文件智慧模型, 帶著一個簡單的轉折, 它不只是把文字從檔案中抽出來, 而是把結構交還給你。OCR 4 回傳邊界框, 標註標題, 表格, 方程式與簽名的分類區塊, 以及對所讀內容的內嵌信賴分數。文字只是輸出的一部分, 而且可以說是最不有趣的部分。

結構與信賴度才是重點所在, 因為它們正是檢索系統一直以來所欠缺的。純粹的 OCR 給你一整面的字元, 卻丟失了每一塊內容從何而來, 以及它有多可靠。有了邊界框, 區塊類型, 與逐段的信賴度, 下游系統就能建立以來源為基礎的引用, 指向頁面上的確切區域, 遮蔽敏感區塊, 並把低信賴度的段落導向人工審查。那正是介於掃描一份 PDF 與信任它所產出內容之間的那一層。

在覆蓋範圍與部署方面, OCR 4 支援橫跨 10 個語言群組的 170 種語言, 並在許多競爭系統表現退化的專門與低資源語言上有可量測的提升。它接受企業實際使用的格式, 包括 PDF, DOC, PPT 與 OpenDocument。同樣重要的是, 這個模型夠精簡, 可以在單一容器中執行, 這意味著它可以自行託管, 對於那些文件不能離開自家牆內的組織而言, 這是一個實際的考量。

Mistral 以數據為這次發表背書。它表示, 獨立標註者在每個受測系統中都偏好 OCR 4, 平均勝率達 72%, 而且這個模型在公開的 OlmOCRBench 排行榜上以 85.20 的分數拔得頭籌。一如往常需要警惕, 這個勝率的框架是 Mistral 自己提出的, 而 OCR 基準衡量的只是一個雜亂問題的狹隘切片。真正的考驗是棘手的真實世界文件, 手寫字跡, 品質不佳的掃描件, 以及密集的表格, 在這些情況下分數往往會下滑。

值得注意的轉變在於 OCR 正在變成什麼。它不再是管線前端的一個傾倒文字的步驟, 而是檢索的擷取層, 發出有依據 AI 真正需要的結構與不確定性。隨著企業內部更多有用的資料躺在 PDF 與簡報投影片中, 一個能回傳引用與信賴度, 並在你自己容器內執行的文件模型, 是 RAG 堆疊中一個悄悄承重的部件。它不如又一個聊天機器人那麼炫目, 卻更有可能成為讓那個聊天機器人值得信賴的關鍵。