Kshetrajna Raghavan, engenheiro de machine learning aplicado na Shopify, apresentou na semana passada num meetup DSPy da Bay Area uma migração que a empresa rodou no seu pipeline de extração de dados de comerciantes. O sistema processa dados de loja não estruturados — listas de produtos, imagens, descrições, categorização fiscalmente relevante, sinais de fraude — e os alimenta à automação a jusante da Shopify. A implementação original era um setup de prompt único rodando no GPT-5 da OpenAI. A nova é uma arquitetura multi-agente rodando em Qwen 3 auto-hospedado, com prompts otimizados programaticamente via DSPy. Os números que Raghavan apresentou foram uma redução de 75x em custo LLM por unidade e aproximadamente uma melhoria de 2x em qualidade de saída comparada com a baseline GPT-5 de prompt único. A cobertura da Analytics India Magazine reportou uma manchete de "68% mais barato" que não bate com o número do meetup; o 75x é o da fonte.
A redução de custo é real mas vale a pena decompor porque duas mudanças estão misturadas. Uma mudança é a troca de modelo: chamadas de API GPT-5 são caras, e auto-hospedar um deployment Qwen 3 open-weights remove tanto o preço por token da API quanto a margem do vendor embutida na inferência comercial. Só isso já te dá um grande múltiplo em custo. A outra mudança é a troca de arquitetura: ir de um prompt único de 5K tokens para um pipeline multi-agente com fluxos especializados — Raghavan citou detecção de fraude e codificação fiscal como agentes separados — e usar DSPy para compilar e otimizar prompts em vez de ajustá-los à mão. A mudança de arquitetura melhora tanto a qualidade quanto o custo por tarefa porque cada agente recebe um prompt focado e menor em vez de um gigante que paga por contexto em cada chamada. Dizer "Qwen 3 é 75x mais barato que GPT-5" elide isso; a afirmação real é "Qwen 3 auto-hospedado mais DSPy mais decomposição multi-agente é 75x mais barato que GPT-5 de prompt único nessa workload específica".
Para desenvolvedores olhando a mesma migração, as lições que generalizam são concretas. Auto-hospedar open-weights na escala de 32B parâmetros é agora uma opção prática para workloads de extração de alto volume em que gasto de API domina o orçamento — o pipeline da Shopify tem exatamente essa forma. DSPy como framework de otimização de prompts está fazendo trabalho real aqui; o enquadramento do meetup foi que prompts engenheirados à mão num modelo menor não teriam fechado a lacuna de qualidade, e que compilação programática de prompts foi o que tornou o modelo menor competitivo. Decomposição multi-agente troca um prompt complexo único por vários mais simples com seus próprios loops de otimização, o que o artigo nota como computacionalmente mais barato porque cada inferência é mais curta. A combinação é o ponto. Quem tentar só a troca de modelo sem as mudanças de framework e arquiteturais não vai ver uma melhoria de 75x.
As ressalvas honestas também merecem ser nomeadas. Não há paper publicado. Especificações de hardware para o deployment auto-hospedado não são divulgadas, o que importa porque o número de custo por unidade depende inteiramente das taxas de utilização. A alegação de qualidade 2x é contra uma baseline GPT-5 de prompt único que a própria Shopify reconhece não foi tunada com o mesmo cuidado do novo pipeline, então a comparação é entre um sistema antigo subinvestido e um novo sobreinvestido. A migração quase certamente parece melhor do que uma baseline mais justa pareceria. Nada disso torna o resultado errado, mas significa que a interpretação correta é "a workload específica da Shopify, com seu volume específico, no hardware específico deles, com a expertise específica em DSPy do time deles, roda 75x mais barato após essa reformulação". Se seu workload generaliza assim tão bem é a pergunta que todo time considerando o mesmo playbook precisa responder por si mesmo.
