Zubnet AIAprenderWiki › Inferencia
Infraestructura

Inferencia

El proceso de ejecutar un modelo entrenado para generar resultados. El entrenamiento es aprender; la inferencia es usar lo aprendido. Cada vez que envías un prompt a Claude o generas una imagen con Stable Diffusion, eso es inferencia. Es lo que les cuesta horas de GPU a los proveedores y lo que tú pagas por token.

Por qué importa

El costo y la velocidad de la inferencia determinan la economía de los productos de IA. Inferencia más rápida = menor latencia = mejor experiencia de usuario. Inferencia más barata = precios más bajos = adopción más amplia. Toda la industria de cuantización y optimización existe para hacer la inferencia más eficiente.

En profundidad

Para los modelos de lenguaje grandes, la inferencia ocurre en dos fases distintas, y entenderlas explica la mayoría de las características de rendimiento que observarás. La primera fase se llama “prefill” o “procesamiento de prompt” — el modelo lee todo tu prompt de entrada y construye su estado interno (el KV cache). Esta fase está limitada por cómputo y se beneficia del paralelismo de la GPU porque todos los tokens de entrada pueden procesarse simultáneamente. La segunda fase es “decode” o “generación” — el modelo produce tokens de salida uno a la vez, cada uno dependiendo de todos los tokens anteriores. Esta fase está limitada por el ancho de banda de memoria porque el modelo necesita leer sus pesos de la VRAM por cada token pero hace relativamente poco cómputo por lectura. Por eso el Time to First Token (TTFT) y los tokens por segundo se miden por separado: reflejan cuellos de botella fundamentalmente diferentes.

Throughput vs. latencia

La economía de la inferencia está dominada por un concepto llamado “throughput vs. latencia”. Si estás sirviendo un chatbot donde un usuario espera una respuesta, quieres baja latencia — sacar ese primer token rápido. Pero si estás procesando en lotes (resumiendo 10,000 documentos durante la noche), quieres alto throughput — procesar tantos tokens por segundo como sea posible, aunque cada solicitud individual sea más lenta. Los motores de inferencia como vLLM y TensorRT-LLM usan una técnica llamada “continuous batching” para agrupar dinámicamente múltiples solicitudes, lo que mejora el throughput dramáticamente. Una sola H100 podría generar 40 tokens/segundo para una solicitud, pero al hacer batching de forma inteligente, la misma GPU puede servir a más de 20 usuarios concurrentes con latencia aceptable porque el ancho de banda de memoria se comparte más eficientemente.

El panorama del serving

El panorama del serving de inferencia se ha fragmentado en enfoques distintos. Los proveedores de APIs en la nube (Anthropic, OpenAI, Google) operan clústeres masivos de GPUs y venden inferencia como servicio, con precio por token. Los proveedores enfocados en inferencia como Groq apuestan por hardware especializado — la LPU (Language Processing Unit) de Groq está diseñada específicamente para la fase secuencial de decode y logra una generación de tokens notablemente rápida. Del lado open-source, llama.cpp llevó la inferencia de LLMs a CPUs y GPUs de consumo mediante cuantización agresiva, y herramientas como Ollama lo envolvieron en un paquete amigable. Para self-hosting en producción, vLLM con PagedAttention se ha convertido en la opción por defecto, ofreciendo throughput que rivaliza con ofertas comerciales cuando se configura correctamente.

La realidad de los costos

Una confusión común es que la inferencia es “barata” comparada con el entrenamiento. Para una sola solicitud, sí — generar una respuesta cuesta una fracción de centavo. Pero la inferencia es continua. Un chatbot popular maneja millones de solicitudes por día, indefinidamente. Se reporta que OpenAI gasta más en inferencia que en entrenamiento a estas alturas. Por eso la optimización de inferencia es un área tan candente: speculative decoding (usar un modelo pequeño “borrador” para predecir lo que el modelo grande dirá), compresión de KV cache y prefix caching (reutilizar cómputo para system prompts compartidos) apuntan a exprimir más respuestas del mismo hardware. Cada punto porcentual de mejora en eficiencia se traduce directamente en millones de dólares ahorrados a escala.

Conceptos relacionados

← Todos los términos
← Ideogram Jina AI →
ESC