Kshetrajna Raghavan, un ingeniero de machine learning aplicado en Shopify, presentó la semana pasada en un meetup de DSPy en Bay Area una migración que la empresa corrió en su pipeline de extracción de datos de comerciantes. El sistema procesa datos de tienda no estructurados — listas de productos, imágenes, descripciones, categorización fiscalmente relevante, señales de fraude — y los alimenta a la automatización descendente de Shopify. La implementación original era un setup de prompt único corriendo en GPT-5 de OpenAI. La nueva es una arquitectura multi-agente corriendo en Qwen 3 auto-hosteado, con prompts optimizados programáticamente vía DSPy. Los números que Raghavan presentó fueron una reducción de 75x en costo LLM por unidad y aproximadamente una mejora de 2x en calidad de salida comparada con la baseline GPT-5 de prompt único. La cobertura de Analytics India Magazine reportó un titular de "68% más barato" que no coincide con la cifra del meetup; el número 75x es el de la fuente.

La reducción de costo es real pero vale la pena descomponer porque dos cambios están mezclados. Un cambio es el swap de modelo: las llamadas API GPT-5 son caras, y auto-hostear un despliegue Qwen 3 open-weights elimina tanto el precio por token de API como el margen del vendor horneado en la inferencia comercial. Eso solo te da un gran múltiplo en costo. El otro cambio es el swap de arquitectura: pasar de un prompt único de 5K tokens a un pipeline multi-agente con flujos especializados — Raghavan mencionó detección de fraude y codificación fiscal como agentes separados — y usar DSPy para compilar y optimizar prompts en lugar de afinarlos a mano. El cambio de arquitectura mejora tanto la calidad como el costo por tarea porque cada agente recibe un prompt enfocado y más pequeño en vez de uno gigante que paga por contexto en cada llamada. Decir "Qwen 3 es 75x más barato que GPT-5" elude esto; la afirmación real es "Qwen 3 auto-hosteado más DSPy más descomposición multi-agente es 75x más barato que GPT-5 de prompt único en esta carga de trabajo específica".

Para desarrolladores mirando la misma migración, las lecciones que se generalizan son concretas. Auto-hostear open-weights a escala de 32B parámetros es ahora una opción práctica para cargas de extracción de alto volumen donde el gasto API domina el presupuesto — el pipeline de Shopify tiene exactamente esa forma. DSPy como framework de optimización de prompts está haciendo trabajo real aquí; el encuadre del meetup fue que prompts ingenierizados a mano sobre un modelo más pequeño no habrían cerrado la brecha de calidad, y que la compilación programática de prompts fue lo que hizo competitivo al modelo más pequeño. La descomposición multi-agente intercambia un prompt complejo único por varios más simples con sus propios bucles de optimización, lo que el artículo nota como computacionalmente más barato porque cada inferencia es más corta. La combinación es el punto. Cualquiera que intente solo el swap de modelo sin los cambios de framework y arquitectónicos no verá una mejora de 75x.

Las advertencias honestas también merecen ser nombradas. No hay paper publicado. Las especificaciones de hardware para el despliegue auto-hosteado no están divulgadas, lo cual importa porque el número de costo por unidad depende enteramente de las tasas de utilización. La afirmación de calidad 2x es contra una baseline GPT-5 de prompt único que Shopify mismos reconocen no fue tuneada con el mismo cuidado que el nuevo pipeline, así que la comparación es entre un sistema viejo subinvertido y uno nuevo sobreinvertido. La migración casi ciertamente se ve mejor que una baseline más justa lo haría. Nada de esto hace el resultado equivocado, pero sí significa que la interpretación correcta es "la carga específica de Shopify, con su volumen específico, en su hardware específico, con la experticia específica de DSPy de su equipo, corre 75x más barato después de esta reelaboración". Si tu carga generaliza así de bien es la pregunta que cada equipo considerando el mismo playbook necesita responder por sí mismo.