Kshetrajna Raghavan, ingénieur en apprentissage machine appliqué chez Shopify, a présenté la semaine passée à un meetup DSPy de Bay Area une migration que la compagnie a faite sur son pipeline d'extraction de données marchand. Le système traite des données de vitrine non structurées — listes de produits, images, descriptions, catégorisation fiscalement pertinente, signaux de fraude — pis les achemine dans l'automatisation en aval de Shopify. L'implémentation originale, c'était un setup à prompt unique sur GPT-5 d'OpenAI. La nouvelle, c'est une architecture multi-agents qui roule sur Qwen 3 auto-hébergé, avec des prompts optimisés programmatiquement via DSPy. Les chiffres que Raghavan a présentés, c'était une baisse de 75x du coût LLM par unité pis environ 2x d'amélioration en qualité de sortie comparé à la baseline GPT-5 à prompt unique. La couverture d'Analytics India Magazine a rapporté un titre « 68 % moins cher » qui colle pas avec le chiffre du meetup ; le 75x, c'est celui de la source.
La baisse de coût est réelle mais mérite d'être décomposée parce que deux changements sont mêlés. Un changement, c'est le swap de modèle : les appels API GPT-5 sont chers, pis auto-héberger un déploiement Qwen 3 open-weights enlève à la fois la tarification par token API pis la marge vendeur cuite dans l'inférence commerciale. Juste ça, ça te donne un gros multiple en coût. L'autre changement, c'est le swap d'architecture : passer d'un prompt unique de 5K tokens à un pipeline multi-agents avec workflows spécialisés — Raghavan a nommé la détection de fraude pis le codage fiscal comme des agents séparés — pis utiliser DSPy pour compiler pis optimiser les prompts plutôt que les ajuster à la main. Le changement d'architecture améliore à la fois la qualité pis le coût par tâche parce que chaque agent reçoit un prompt focalisé pis plus petit plutôt qu'un gros qui paye pour le contexte à chaque appel. Dire « Qwen 3 est 75x moins cher que GPT-5 » élide ça ; la vraie revendication, c'est « Qwen 3 auto-hébergé plus DSPy plus décomposition multi-agents, c'est 75x moins cher que GPT-5 à prompt unique sur cette charge spécifique ».
Pour les développeurs qui regardent la même migration, les leçons qui se généralisent sont concrètes. Auto-héberger des open-weights à l'échelle 32B paramètres est maintenant une option pratique pour des charges d'extraction en gros volume où la dépense API domine le budget — le pipeline de Shopify a exactement cette forme. DSPy comme framework d'optimisation de prompts fait du vrai travail ici ; le cadrage du meetup, c'était que des prompts ingénierés à la main sur un plus petit modèle auraient pas fermé l'écart de qualité, pis que la compilation programmatique de prompts, c'est ce qui rendait le plus petit modèle compétitif. La décomposition multi-agents échange un prompt complexe unique contre plusieurs plus simples avec leurs propres boucles d'optimisation, ce que l'article note comme étant moins cher en calcul parce que chaque inférence est plus courte. C'est la combinaison qui compte. Quiconque essaye juste le swap de modèle sans les changements de framework pis architecturaux verra pas une amélioration 75x.
Les mises en garde honnêtes méritent aussi d'être nommées. Y a pas d'article publié. Les spécifications hardware pour le déploiement auto-hébergé sont pas divulguées, ce qui compte parce que le chiffre de coût par unité dépend entièrement des taux d'utilisation. La revendication 2x qualité, c'est contre une baseline GPT-5 à prompt unique que Shopify eux-mêmes reconnaissent comme pas tunée avec le même soin que le nouveau pipeline, donc la comparaison, c'est entre un vieux système sous-investi pis un nouveau sur-investi. La migration a presque certainement l'air meilleure qu'une baseline plus juste l'aurait. Rien de tout ça rend le résultat faux, mais ça veut dire que la bonne interprétation, c'est « la charge spécifique de Shopify, avec leur volume spécifique, sur leur hardware spécifique, avec l'expertise DSPy spécifique de leur équipe, roule 75x moins cher après ce remaniement ». Si ta charge généralise bien comme ça, c'est la question que toute équipe qui considère le même playbook doit répondre pour elle-même.
