一个工程团队面临从4700多份技术图纸PDF中提取修订号码的任务——这项工作按每份文档两分钟计算需要160个工时,人工成本达8000英镑。他们没有对每个文件都使用GPT-4 Vision,而是构建了一个混合系统,对基于文本的PDF使用PyMuPDF,仅对扫描的历史文档使用GPT-4 Vision。结果:45分钟的处理工作节省了数周的人工劳动,同时满足了生产资产管理迁移的准确性要求。
这个案例研究暴露了我们处理文档AI问题方式的关键缺陷。虽然Google Cloud的Document AI平台和MinerU等新工具承诺提供全面的PDF解析,但工程团队的混合方法表明昂贵的AI推理并不总是答案。他们的语料库中70-80%是基于文本的PDF,简单的Python提取就能完美工作,只有20-30%基于图像的历史文件需要视觉模型。按每张图片0.01美元和每次API调用10秒计算,通过GPT-4 Vision处理所有内容将花费47美元和近100分钟的API时间。
揭示性的是这如何与当前市场推动的全AI解决方案相矛盾。DeepSeek在2025年10月发布的新OCR模型达到97%的准确率,压缩比提高10倍,承诺以更低的计算成本处理更长的文档。但即使有这些改进,混合方法证明确定性方法在结构化、可预测的文档格式上仍然优于AI。团队的架构——将简单案例路由到传统解析,将复杂案例升级到AI——代表了比主导开发者讨论的"AI优先"心态更务实的路径。
对于构建文档处理系统的开发者,这个案例论证了在路由层而不仅仅是模型中需要智能。从能工作的最便宜、最快的方法开始,然后在确定性方法失败的地方逐步用AI增强。目标不是展示最新模型——而是交付真正解决实际业务问题且成本可持续的系统。
