vLLM (UC Berkeley) a introduit PagedAttention — gérer le cache KV comme des pages de mémoire virtuelle pour éliminer la fragmentation, atteignant 2–4x plus de débit que les implémentations naïves. TGI (Hugging Face) fournit un serveur prêt pour la production avec un support intégré pour de nombreuses architectures de modèles, la quantification et le streaming. TensorRT-LLM (NVIDIA) optimise les modèles spécifiquement pour les GPU NVIDIA en utilisant la fusion de noyaux et des noyaux CUDA personnalisés, atteignant souvent la meilleure performance par GPU.
Un déploiement de service en production inclut typiquement : un serveur de modèle (vLLM/TGI), un proxy inverse pour l'équilibrage de charge (nginx), une file d'attente de requêtes pour les pics de trafic, du monitoring pour les métriques de latence et de débit, et de l'auto-scaling pour ajouter ou retirer des instances GPU selon la demande. Certains déploiements ajoutent un routeur qui dirige les requêtes simples vers des modèles plus petits et les requêtes complexes vers des modèles plus grands, optimisant le coût.
La décision entre l'auto-hébergement (faire tourner ton propre serveur de modèle) et utiliser l'API d'un fournisseur dépend de l'échelle, de la confidentialité et du coût. En dessous de ~1 000 $/mois en coûts d'API, l'auto-hébergement a rarement un sens économique (la location de GPU est chère). Au-dessus de ~10 000 $/mois, l'auto-hébergement l'emporte souvent parce que tu peux optimiser pour ta charge de travail spécifique. Les exigences de confidentialité (les données ne peuvent pas quitter ton infrastructure) forcent souvent l'auto-hébergement quel que soit le coût.