Shopify 應用機器學習工程師 Kshetrajna Raghavan 上週在灣區一次 DSPy meetup 上介紹了公司在商家資料擷取管道上做的一次遷移。這套系統處理非結構化店鋪資料——商品列表、圖片、描述、稅務相關分類、詐欺訊號——然後把結果餵進 Shopify 下游的自動化。原先的實作是一個跑在 OpenAI GPT-5 上的單一 prompt setup。現在的實作是一個跑在自託管 Qwen 3 上的多智能體架構,prompt 透過 DSPy 程式化最佳化。Raghavan 給出的數字是單位 LLM 成本下降 75 倍、輸出品質相對 GPT-5 單一 prompt 基線提升約 2 倍。Analytics India Magazine 的報導用了「便宜 68%」的標題,跟 meetup 上的數字對不上;75 倍才是來源給的。

成本下降是真的,但值得拆開來看,因為這裡其實有兩個變化疊在一起。一個變化是模型替換:GPT-5 API 呼叫很貴,自託管一個 open-weights Qwen 3 部署就同時去掉了按 token 的 API 計費和商業推理裡包含的廠商溢價。光這一項就能給你一個不小的成本倍數。另一個變化是架構替換:從一個 5K-token 的單一 prompt 改成多智能體管道、帶專門化工作流——Raghavan 把詐欺偵測和稅務編碼點名為獨立 agent——並用 DSPy 來編譯和最佳化 prompt,而不是手動調。架構變更同時提升了品質和單任務成本效率,因為每個 agent 拿的是聚焦的小 prompt,而不是一個每次呼叫都要為上下文付費的大 prompt。說「Qwen 3 比 GPT-5 便宜 75 倍」會模糊這一點;真正的表述是「自託管 Qwen 3 加 DSPy 加多智能體分解,在這個特定工作負載上比單一 prompt 的 GPT-5 便宜 75 倍」。

對在看同樣遷移的開發者來說,能泛化的教訓是具體的。自託管 32B 參數等級的 open-weights,對於 API 支出主導預算的高吞吐批量擷取工作負載,已經是個實用選項了——Shopify 的管道恰好就是這種形態。DSPy 作為 prompt 最佳化框架在這裡幹的是真活兒;meetup 的說法是手工調出來的 prompt 在更小模型上沒法把品質差距填平,而程式化的 prompt 編譯才讓小模型變得有競爭力。多智能體分解把一個複雜的單一 prompt 換成幾個各自有最佳化迴圈的簡單 prompt,文章指出這在運算上更便宜,因為每次推理都更短。組合起來才是關鍵。只做模型替換、不做框架和架構改動的人,是看不到 75 倍提升的。

誠實的警告也值得點出來。沒有發表論文。自託管部署的硬體規格沒披露,這點重要,因為單位成本數字完全取決於使用率。2 倍品質的說法對照的是 Shopify 自己也承認沒有按新管道同等用心調過的 GPT-5 單一 prompt 基線,所以這是在拿一個投入不足的舊系統和一個投入超額的新系統比較。這次遷移看起來幾乎肯定比公平基線下應有的樣子要更好。這些都不讓結果變錯,但意思是說正確的解讀是「Shopify 自己的特定工作負載、特定流量、特定硬體、團隊特定 DSPy 經驗下,重做之後便宜了 75 倍」。你的工作負載是不是能這麼泛化得起來,這是每個考慮同一套 playbook 的團隊自己得回答的問題。