Zubnet AIApprendreWiki › Ollama
Outils

Ollama

Un outil convivial pour faire tourner des modèles de langage localement avec une seule commande. Ollama enveloppe llama.cpp dans une expérience Docker-like : ollama run llama3 télécharge et fait tourner Llama 3, sélectionnant automatiquement la bonne quantization pour ton hardware. Il gère les téléchargements de modèles, fournit un serveur API, et gère la détection hardware.

Pourquoi c'est important

Ollama est à l'IA locale ce que Docker est à la conteneurisation : il a enlevé la friction. Avant Ollama, faire tourner un modèle local voulait dire choisir les niveaux de quantization, télécharger des fichiers GGUF, configurer les flags llama.cpp, et gérer l'offloading GPU. Ollama gère tout ça automatiquement. C'est le chemin le plus rapide de « je veux essayer de faire tourner de l'IA localement » à le faire vraiment.

Deep Dive

Ollama maintains a registry of models (similar to Docker Hub) where popular models are available in pre-configured quantizations. Running ollama pull mistral downloads Mistral-7B at a reasonable quantization for your system. The tool detects your hardware (CPU, Apple Silicon, NVIDIA GPU) and configures inference accordingly. It exposes an HTTP API on localhost:11434 that's compatible with many AI tools and frameworks.

Modelfile

Ollama's "Modelfile" concept lets you customize models by specifying a base model, system prompt, temperature, and other parameters — like a Dockerfile for AI models. You can create custom variants: ollama create my-assistant -f Modelfile. This makes it easy to experiment with different system prompts and parameters without touching model weights.

The Local AI Stack

Ollama is typically one layer in a local AI stack: Ollama for model serving, Open WebUI for a chat interface, and various tools that connect via the API (Continue for IDE integration, LangChain for application frameworks). This stack gives you a fully private, cost-free AI setup that runs entirely on your hardware. For privacy-sensitive applications and development work, it's increasingly competitive with cloud APIs.

Concepts liés

← Tous les termes
← NVIDIA ONNX →