Shopify 应用机器学习工程师 Kshetrajna Raghavan 上周在湾区一次 DSPy meetup 上介绍了公司在商家数据抽取管道上做的一次迁移。这套系统处理非结构化店铺数据——商品列表、图片、描述、税务相关分类、欺诈信号——然后把结果喂进 Shopify 下游的自动化。原先的实现是一个跑在 OpenAI GPT-5 上的单一 prompt setup。现在的实现是一个跑在自托管 Qwen 3 上的多智能体架构,prompt 通过 DSPy 程序化优化。Raghavan 给出的数字是单位 LLM 成本下降 75 倍、输出质量相对 GPT-5 单一 prompt 基线提升约 2 倍。Analytics India Magazine 的报道用了「便宜 68%」的标题,跟 meetup 上的数字对不上;75 倍才是来源给的。

成本下降是真的,但值得拆开来看,因为这里其实有两个变化叠在一起。一个变化是模型替换:GPT-5 API 调用很贵,自托管一个 open-weights Qwen 3 部署就同时去掉了按 token 的 API 计费和商业推理里包含的厂商溢价。光这一项就能给你一个不小的成本倍数。另一个变化是架构替换:从一个 5K-token 的单一 prompt 改成多智能体管道、带专门化工作流——Raghavan 把欺诈检测和税务编码点名为独立 agent——并用 DSPy 来编译和优化 prompt,而不是手动调。架构变更同时提升了质量和单任务成本效率,因为每个 agent 拿的是聚焦的小 prompt,而不是一个每次调用都要为上下文付费的大 prompt。说「Qwen 3 比 GPT-5 便宜 75 倍」会模糊这一点;真正的表述是「自托管 Qwen 3 加 DSPy 加多智能体分解,在这个特定工作负载上比单一 prompt 的 GPT-5 便宜 75 倍」。

对在看同样迁移的开发者来说,能泛化的教训是具体的。自托管 32B 参数级别的 open-weights,对于 API 支出主导预算的高吞吐批量抽取工作负载,已经是个实用选项了——Shopify 的管道恰好就是这种形态。DSPy 作为 prompt 优化框架在这里干的是真活儿;meetup 的说法是手工调出来的 prompt 在更小模型上没法把质量差距填平,而程序化的 prompt 编译才让小模型变得有竞争力。多智能体分解把一个复杂的单一 prompt 换成几个各自有优化循环的简单 prompt,文章指出这在计算上更便宜,因为每次推理都更短。组合起来才是关键。只做模型替换、不做框架和架构改动的人,是看不到 75 倍提升的。

诚实的警告也值得点出来。没有发表论文。自托管部署的硬件规格没披露,这点重要,因为单位成本数字完全取决于利用率。2 倍质量的说法对照的是 Shopify 自己也承认没有按新管道同等用心调过的 GPT-5 单一 prompt 基线,所以这是在拿一个投入不足的旧系统和一个投入超额的新系统比较。这次迁移看起来几乎肯定比公平基线下应有的样子要更好。这些都不让结果变错,但意思是说正确的解读是「Shopify 自己的特定工作负载、特定流量、特定硬件、团队特定 DSPy 经验下,重做之后便宜了 75 倍」。你的工作负载是不是能这么泛化得起来,这是每个考虑同一套 playbook 的团队自己得回答的问题。