Zubnet AIApprendreWiki › Service de modèles
Infrastructure

Service de modèles

Aussi appelé : vLLM, TGI, TensorRT-LLM, serveur d'inférence
L'infrastructure et les logiciels qui font tourner des modèles d'IA entraînés en production, gérant les requêtes entrantes, administrant la mémoire GPU, regroupant les requêtes pour l'efficacité et retournant les réponses. Les frameworks de service de modèles comme vLLM, TGI (Text Generation Inference) et TensorRT-LLM gèrent l'ingénierie complexe nécessaire pour rendre l'inférence LLM rapide et rentable à l'échelle.

Pourquoi c'est important

Le fossé entre « j'ai un modèle » et « je peux servir 10 000 utilisateurs simultanément » est énorme. Les frameworks de service de modèles résolvent la gestion de la mémoire GPU, l'ordonnancement des requêtes, l'optimisation du cache KV et le batching continu — des problèmes difficiles à résoudre à partir de zéro. Choisir la bonne pile de service est une des décisions les plus impactantes en IA de production.

En profondeur

vLLM (UC Berkeley) a introduit PagedAttention — gérer le cache KV comme des pages de mémoire virtuelle pour éliminer la fragmentation, atteignant 2–4x plus de débit que les implémentations naïves. TGI (Hugging Face) fournit un serveur prêt pour la production avec un support intégré pour de nombreuses architectures de modèles, la quantification et le streaming. TensorRT-LLM (NVIDIA) optimise les modèles spécifiquement pour les GPU NVIDIA en utilisant la fusion de noyaux et des noyaux CUDA personnalisés, atteignant souvent la meilleure performance par GPU.

La pile de service

Un déploiement de service en production inclut typiquement : un serveur de modèle (vLLM/TGI), un proxy inverse pour l'équilibrage de charge (nginx), une file d'attente de requêtes pour les pics de trafic, du monitoring pour les métriques de latence et de débit, et de l'auto-scaling pour ajouter ou retirer des instances GPU selon la demande. Certains déploiements ajoutent un routeur qui dirige les requêtes simples vers des modèles plus petits et les requêtes complexes vers des modèles plus grands, optimisant le coût.

Auto-hébergement vs. API

La décision entre l'auto-hébergement (faire tourner ton propre serveur de modèle) et utiliser l'API d'un fournisseur dépend de l'échelle, de la confidentialité et du coût. En dessous de ~1 000 $/mois en coûts d'API, l'auto-hébergement a rarement un sens économique (la location de GPU est chère). Au-dessus de ~10 000 $/mois, l'auto-hébergement l'emporte souvent parce que tu peux optimiser pour ta charge de travail spécifique. Les exigences de confidentialité (les données ne peuvent pas quitter ton infrastructure) forcent souvent l'auto-hébergement quel que soit le coût.

Concepts connexes

← Tous les termes
← Self-Attention Sigmoid →
ESC