一個工程團隊面臨從4700多份技術圖紙PDF中提取修訂號碼的任務——這項工作按每份文件兩分鐘計算需要160個工時,人工成本達8000英鎊。他們沒有對每個檔案都使用GPT-4 Vision,而是構建了一個混合系統,對基於文字的PDF使用PyMuPDF,僅對掃描的歷史文件使用GPT-4 Vision。結果:45分鐘的處理工作節省了數週的人工勞動,同時滿足了生產資產管理遷移的準確性要求。

這個案例研究暴露了我們處理文件AI問題方式的關鍵缺陷。雖然Google Cloud的Document AI平台和MinerU等新工具承諾提供全面的PDF解析,但工程團隊的混合方法表明昂貴的AI推理並不總是答案。他們的語料庫中70-80%是基於文字的PDF,簡單的Python提取就能完美工作,只有20-30%基於圖像的歷史檔案需要視覺模型。按每張圖片0.01美元和每次API呼叫10秒計算,透過GPT-4 Vision處理所有內容將花費47美元和近100分鐘的API時間。

揭示性的是這如何與當前市場推動的全AI解決方案相矛盾。DeepSeek在2025年10月發佈的新OCR模型達到97%的準確率,壓縮比提高10倍,承諾以更低的計算成本處理更長的文件。但即使有這些改進,混合方法證明確定性方法在結構化、可預測的文件格式上仍然優於AI。團隊的架構——將簡單案例路由到傳統解析,將複雜案例升級到AI——代表了比主導開發者討論的「AI優先」心態更務實的路徑。

對於構建文件處理系統的開發者,這個案例論證了在路由層而不僅僅是模型中需要智能。從能工作的最便宜、最快的方法開始,然後在確定性方法失敗的地方逐步用AI增強。目標不是展示最新模型——而是交付真正解決實際業務問題且成本可持續的系統。