Mistral 发布了 OCR 4, 这是一款文档智能模型, 带有一个简单的转变, 它不只是从文件中抽取文本, 而是把结构交还给你。OCR 4 返回边界框, 用于标注标题, 表格, 公式和签名的类型化区块分类, 以及对所读内容的内联置信度分数。文本只是输出的一部分, 而且可以说是其中最不有趣的一部分。
结构和置信度才是关键, 因为它们正是检索系统一直缺失的东西。普通 OCR 给你一大堆字符, 却丢失了每一部分内容的来源以及它有多可靠。有了边界框, 区块类型和逐段置信度, 下游系统就能构建基于来源的引用, 精确指向页面上的具体区域, 对敏感区块进行脱敏, 并将低置信度段落转交人工审核。这正是介于扫描 PDF 和信任其输出之间的那一层。
在覆盖范围和部署方面, OCR 4 支持横跨 10 个语系的 170 种语言, 并在许多竞争系统会出现下降的专业语言和低资源语言上有可衡量的提升。它接受企业实际使用的格式, 包括 PDF, DOC, PPT 和 OpenDocument。同样重要的是, 这款模型足够精简, 可在单个容器中运行, 这意味着它可以自托管, 对于那些文档不能离开自家围墙的组织来说, 这是一个实实在在的考量。
Mistral 用数字为这次发布背书。它表示, 独立标注人员在所有受测系统中更青睐 OCR 4, 平均胜率达到 72%, 并称该模型以 85.20 的分数登顶公开的 OlmOCRBench 排行榜。一如往常需要保持谨慎, 这种胜率表述出自 Mistral 自己, 而 OCR 基准只衡量了一个棘手问题中很窄的切片。真正的考验在于现实中那些棘手的文档, 手写体, 糟糕的扫描件和密集的表格, 在这些情况下分数往往会下滑。
值得注意的转变在于 OCR 正在变成什么。它不再是流程最前端一个倾倒文本的步骤, 而是面向检索的摄取层, 输出有据可循的 AI 真正需要的结构和不确定性。随着企业内部越来越多有用的数据存放在 PDF 和幻灯片中, 一款能返回引用和置信度, 并能在你自己容器内运行的文档模型, 正悄然成为 RAG 技术栈中承重的一块。它不如又一个聊天机器人那样抢眼, 却更有可能是让聊天机器人变得可信赖的那样东西。
