Shopify में एप्लाइड मशीन लर्निंग इंजीनियर Kshetrajna Raghavan ने पिछले हफ़्ते Bay Area DSPy meetup में एक माइग्रेशन प्रस्तुत किया जो कंपनी ने अपनी मर्चेंट डेटा एक्सट्रैक्शन पाइपलाइन पर चलाया। सिस्टम असंरचित स्टोरफ़्रंट डेटा — उत्पाद सूचियाँ, छवियाँ, विवरण, कर-संबंधित वर्गीकरण, धोखाधड़ी संकेत — को प्रोसेस करता है और Shopify के डाउनस्ट्रीम ऑटोमेशन में फ़ीड करता है। मूल कार्यान्वयन OpenAI के GPT-5 पर चल रहा एक एकल-प्रॉम्प्ट सेटअप था। नया एक मल्टी-एजेंट आर्किटेक्चर है जो सेल्फ़-होस्टेड Qwen 3 पर चलता है, प्रॉम्प्ट DSPy के माध्यम से प्रोग्रामेटिक रूप से अनुकूलित। Raghavan ने जो नंबर प्रस्तुत किए वे थे प्रति-यूनिट LLM कॉस्ट में 75 गुना कमी और GPT-5 एकल-प्रॉम्प्ट बेसलाइन की तुलना में आउटपुट क्वालिटी में लगभग 2 गुना सुधार। Analytics India Magazine की कवरेज ने "68% सस्ता" हेडलाइन रिपोर्ट किया जो meetup के आंकड़े से मेल नहीं खाता; 75 गुना ही स्रोत से है।

कॉस्ट कमी असली है पर इसे विघटित करना उचित है क्योंकि दो बदलाव मिले हुए हैं। एक बदलाव मॉडल स्वैप है: GPT-5 API कॉल्स महंगी हैं, और एक open-weights Qwen 3 डिप्लॉयमेंट को सेल्फ़-होस्ट करना प्रति-टोकन API प्राइसिंग और कमर्शियल इन्फ़रेंस में बेक़्ड वेंडर मार्कअप दोनों हटा देता है। अकेले वो ही आपको कॉस्ट में बड़ा गुणक देता है। दूसरा बदलाव आर्किटेक्चर स्वैप है: एक 5K-टोकन एकल प्रॉम्प्ट से एक मल्टी-एजेंट पाइपलाइन में जाना विशेष वर्कफ़्लो के साथ — Raghavan ने धोखाधड़ी डिटेक्शन और टैक्स कोडिंग को अलग एजेंट्स के रूप में बताया — और DSPy का उपयोग प्रॉम्प्ट कंपाइल और अनुकूलित करने के लिए, हाथ से ट्यून करने के बजाय। आर्किटेक्चर बदलाव गुणवत्ता और प्रति-कार्य कॉस्ट दोनों में सुधार करता है क्योंकि प्रत्येक एजेंट को एक केंद्रित, छोटा प्रॉम्प्ट मिलता है, बजाय एक विशाल वाले के जो हर कॉल पर संदर्भ के लिए भुगतान करता है। "Qwen 3 GPT-5 से 75 गुना सस्ता है" कहना यह छिपा देता है; वास्तविक दावा है "इस विशिष्ट वर्कलोड पर सेल्फ़-होस्टेड Qwen 3 प्लस DSPy प्लस मल्टी-एजेंट विघटन एकल-प्रॉम्प्ट GPT-5 से 75 गुना सस्ता है"।

समान माइग्रेशन देख रहे डेवलपर्स के लिए, सामान्यीकरण होने वाले सबक ठोस हैं। 32B-पैरामीटर पैमाने पर open-weights सेल्फ़-होस्ट करना अब उच्च-मात्रा बल्क एक्सट्रैक्शन वर्कलोड के लिए एक व्यावहारिक विकल्प है जहाँ API ख़र्च बजट पर हावी होता है — Shopify की पाइपलाइन ठीक उसी आकार की है। प्रॉम्प्ट-अनुकूलन फ़्रेमवर्क के रूप में DSPy यहाँ असली काम कर रहा है; meetup फ़्रेमिंग यह थी कि एक छोटे मॉडल पर हाथ से इंजीनियर किए गए प्रॉम्प्ट गुणवत्ता अंतर बंद नहीं करते, और प्रोग्रामेटिक प्रॉम्प्ट संकलन वो था जिसने छोटे मॉडल को प्रतिस्पर्धी बनाया। मल्टी-एजेंट विघटन एक एकल जटिल प्रॉम्प्ट को कई सरल वालों से अपनी अनुकूलन लूप के साथ बदल देता है, जो लेख नोट करता है कि कम्प्यूटेशनली सस्ता है क्योंकि प्रत्येक इन्फ़रेंस छोटा है। संयोजन ही मुद्दा है। फ़्रेमवर्क और आर्किटेक्चरल बदलावों के बिना सिर्फ़ मॉडल स्वैप करने वाले 75 गुना सुधार नहीं देखेंगे।

ईमानदार चेतावनियाँ भी नाम देने लायक़ हैं। कोई प्रकाशित पेपर नहीं है। सेल्फ़-होस्टेड डिप्लॉयमेंट के लिए हार्डवेयर विनिर्देश प्रकट नहीं हैं, जो मायने रखता है क्योंकि प्रति-यूनिट कॉस्ट संख्या पूरी तरह उपयोग दरों पर निर्भर करती है। 2 गुना गुणवत्ता दावा एक GPT-5 एकल-प्रॉम्प्ट बेसलाइन के विरुद्ध है जिसे Shopify ख़ुद स्वीकार करते हैं नई पाइपलाइन के समान देखभाल के साथ ट्यून नहीं किया गया था, इसलिए तुलना एक अपर्याप्त निवेशित पुराने सिस्टम और एक अति-निवेशित नए के बीच है। माइग्रेशन लगभग निश्चित रूप से एक उचित बेसलाइन की तुलना में बेहतर दिखता है। इसमें से कोई भी परिणाम को ग़लत नहीं बनाता, पर इसका मतलब है सही व्याख्या यह है "Shopify का विशिष्ट वर्कलोड, उनकी विशिष्ट मात्रा के साथ, उनके विशिष्ट हार्डवेयर पर, उनकी टीम की विशिष्ट DSPy विशेषज्ञता के साथ, इस पुनर्कार्य के बाद 75 गुना सस्ता चलता है"। क्या आपका वर्कलोड उतनी अच्छी तरह सामान्यीकरण करता है, यह वह प्रश्न है जिसका उत्तर समान playbook पर विचार कर रही प्रत्येक टीम को स्वयं देना है।