Zubnet AIAprenderWiki › Servicio de Modelos
Infraestructura

Servicio de Modelos

vLLM, TGI, TensorRT-LLM, Servidor de Inferencia
La infraestructura y software que ejecuta modelos de IA entrenados en producción, manejando solicitudes entrantes, gestionando memoria GPU, agrupando para eficiencia y devolviendo respuestas. Frameworks de servicio de modelos como vLLM, TGI (Text Generation Inference) y TensorRT-LLM manejan la ingeniería compleja de hacer la inferencia de LLMs rápida y rentable a escala.

Por qué importa

La brecha entre "tengo un modelo" y "puedo servir a 10,000 usuarios simultáneamente" es enorme. Los frameworks de servicio de modelos resuelven la gestión de memoria GPU, la programación de solicitudes, la optimización del caché KV y el batching continuo — problemas difíciles de resolver desde cero. Elegir el stack de servicio correcto es una de las decisiones de mayor impacto en la IA en producción.

En profundidad

vLLM (UC Berkeley) introdujo PagedAttention — gestionar el caché KV como páginas de memoria virtual para eliminar la fragmentación, logrando 2–4x mayor rendimiento que las implementaciones ingenuas. TGI (Hugging Face) proporciona un servidor listo para producción con soporte integrado para muchas arquitecturas de modelos, cuantización y streaming. TensorRT-LLM (NVIDIA) optimiza modelos específicamente para GPUs NVIDIA usando fusión de kernels y kernels CUDA personalizados, frecuentemente logrando el mejor rendimiento en una sola GPU.

El Stack de Servicio

Un despliegue de servicio en producción típicamente incluye: un servidor de modelos (vLLM/TGI), un proxy inverso para balanceo de carga (nginx), una cola de solicitudes para picos de tráfico, monitoreo de métricas de latencia y rendimiento, y auto-escalado para añadir o quitar instancias GPU según la demanda. Algunos despliegues añaden un router que dirige solicitudes simples a modelos más pequeños y solicitudes complejas a modelos más grandes, optimizando costos.

Self-Hosting vs. API

La decisión entre self-hosting (ejecutar tu propio servidor de modelos) y usar la API de un proveedor depende de la escala, privacidad y costo. Por debajo de ~$1,000/mes en costos de API, el self-hosting rara vez tiene sentido económico (el alquiler de GPUs es caro). Por encima de ~$10,000/mes, el self-hosting frecuentemente gana porque puedes optimizar para tu carga de trabajo específica. Los requisitos de privacidad (los datos no pueden salir de tu infraestructura) frecuentemente fuerzan el self-hosting sin importar el costo.

Conceptos relacionados

← Todos los términos
← Seguridad de la IA Sesgo →
ESC