Token : Définition et signification — Wiki IA

Un outil convivial pour exécuter des modèles de langage localement avec une seule commande. Ollama encapsule llama.cpp dans une expérience similaire à Docker : ollama run llama3 télécharge et exécute Llama 3, sélectionnant automatiquement la bonne quantification pour ton matériel. Il gère les téléchargements de modèles, fournit un serveur API et détecte le matériel.

Pourquoi c'est important

Ollama est à l'IA locale ce que Docker est à la conteneurisation : il a éliminé la friction. Avant Ollama, exécuter un modèle local signifiait choisir des niveaux de quantification, télécharger des fichiers GGUF, configurer les flags de llama.cpp et gérer le déchargement GPU. Ollama gère tout ça automatiquement. C'est le chemin le plus rapide entre « je veux essayer l'IA locale » et le faire réellement.

En profondeur

Ollama maintient un registre de modèles (similaire à Docker Hub) où les modèles populaires sont disponibles en quantifications préconfigurées. Exécuter ollama pull mistral télécharge Mistral-7B avec une quantification raisonnable pour ton système. L'outil détecte ton matériel (CPU, Apple Silicon, GPU NVIDIA) et configure l'inférence en conséquence. Il expose une API HTTP sur localhost:11434 qui est compatible avec beaucoup d'outils et de frameworks IA.

Modelfile

Le concept de « Modelfile » d'Ollama te permet de personnaliser les modèles en spécifiant un modèle de base, un prompt système, une température et d'autres paramètres — comme un Dockerfile pour les modèles IA. Tu peux créer des variantes personnalisées : ollama create mon-assistant -f Modelfile. Ça facilite l'expérimentation avec différents prompts système et paramètres sans toucher aux poids du modèle.

La stack IA locale

Ollama est typiquement une couche dans une stack IA locale : Ollama pour le service de modèles, Open WebUI pour une interface de chat, et divers outils qui se connectent via l'API (Continue pour l'intégration IDE, LangChain pour les frameworks applicatifs). Cette stack te donne une configuration IA entièrement privée, sans coût, qui tourne entièrement sur ton matériel. Pour les applications sensibles à la vie privée et le travail de développement, elle devient de plus en plus compétitive avec les API cloud.

Ollama

Pourquoi c'est important

En profondeur

Modelfile

La stack IA locale

Concepts connexes