vLLM (UC Berkeley) introdujo PagedAttention — gestionar el caché KV como páginas de memoria virtual para eliminar la fragmentación, logrando 2–4x mayor rendimiento que las implementaciones ingenuas. TGI (Hugging Face) proporciona un servidor listo para producción con soporte integrado para muchas arquitecturas de modelos, cuantización y streaming. TensorRT-LLM (NVIDIA) optimiza modelos específicamente para GPUs NVIDIA usando fusión de kernels y kernels CUDA personalizados, frecuentemente logrando el mejor rendimiento en una sola GPU.
Un despliegue de servicio en producción típicamente incluye: un servidor de modelos (vLLM/TGI), un proxy inverso para balanceo de carga (nginx), una cola de solicitudes para picos de tráfico, monitoreo de métricas de latencia y rendimiento, y auto-escalado para añadir o quitar instancias GPU según la demanda. Algunos despliegues añaden un router que dirige solicitudes simples a modelos más pequeños y solicitudes complejas a modelos más grandes, optimizando costos.
La decisión entre self-hosting (ejecutar tu propio servidor de modelos) y usar la API de un proveedor depende de la escala, privacidad y costo. Por debajo de ~$1,000/mes en costos de API, el self-hosting rara vez tiene sentido económico (el alquiler de GPUs es caro). Por encima de ~$10,000/mes, el self-hosting frecuentemente gana porque puedes optimizar para tu carga de trabajo específica. Los requisitos de privacidad (los datos no pueden salir de tu infraestructura) frecuentemente fuerzan el self-hosting sin importar el costo.