Un registre de modèles stocke typiquement : l'artefact du modèle (poids, configuration), les métadonnées d'entraînement (hyperparamètres, version du jeu de données, durée d'entraînement), les métriques d'évaluation (précision, latence, métriques d'équité par démographie), le statut de déploiement (quelle version sert en production), et le lignage (quelle expérience, quel commit de code et quel pipeline de données ont produit ce modèle). MLflow Model Registry, Weights & Biases et SageMaker Model Registry sont des implémentations populaires.
Dans les workflows de production, le registre de modèles est le point de passage entre l'entraînement et le serving : un data scientist entraîne et évalue des modèles, enregistre le meilleur, un relecteur l'approuve, et le système de déploiement récupère le modèle approuvé et le sert. Cette séparation des responsabilités — l'entraînement ne touche pas directement la production, le déploiement n'utilise que des modèles approuvés par le registre — réduit le risque de déployer des modèles cassés.
Les registres de LLM ont des besoins spécifiques : les modèles sont très gros (des dizaines à des centaines de Go), les variantes fine-tunées partagent un modèle de base commun (stocker les adaptateurs séparément), et l'évaluation est plus complexe (benchmarks automatisés + évaluation humaine + vérifications de sécurité). Hugging Face Hub sert de registre de modèles de facto pour la communauté open source, avec des fiches de modèles, du versionnement et des résultats d'évaluation. Les équipes d'entreprise utilisent souvent des registres privés pour les modèles propriétaires.