ollama run llama3 télécharge et exécute Llama 3, sélectionnant automatiquement la bonne quantification pour ton matériel. Il gère les téléchargements de modèles, fournit un serveur API et détecte le matériel.
Ollama maintient un registre de modèles (similaire à Docker Hub) où les modèles populaires sont disponibles en quantifications préconfigurées. Exécuter ollama pull mistral télécharge Mistral-7B avec une quantification raisonnable pour ton système. L'outil détecte ton matériel (CPU, Apple Silicon, GPU NVIDIA) et configure l'inférence en conséquence. Il expose une API HTTP sur localhost:11434 qui est compatible avec beaucoup d'outils et de frameworks IA.
Le concept de « Modelfile » d'Ollama te permet de personnaliser les modèles en spécifiant un modèle de base, un prompt système, une température et d'autres paramètres — comme un Dockerfile pour les modèles IA. Tu peux créer des variantes personnalisées : ollama create mon-assistant -f Modelfile. Ça facilite l'expérimentation avec différents prompts système et paramètres sans toucher aux poids du modèle.
Ollama est typiquement une couche dans une stack IA locale : Ollama pour le service de modèles, Open WebUI pour une interface de chat, et divers outils qui se connectent via l'API (Continue pour l'intégration IDE, LangChain pour les frameworks applicatifs). Cette stack te donne une configuration IA entièrement privée, sans coût, qui tourne entièrement sur ton matériel. Pour les applications sensibles à la vie privée et le travail de développement, elle devient de plus en plus compétitive avec les API cloud.