Token : Définition et signification — Wiki IA

Une bibliothèque open-source en C/C++ pour exécuter l'inférence LLM sur du matériel grand public, créée par Georgi Gerganov. llama.cpp effectue l'inférence quantifiée sans nécessiter CUDA, PyTorch ou Python — il fonctionne sur CPU, Apple Silicon et GPU grand public. C'est le premier outil à avoir rendu l'exécution locale de grands modèles de langage accessible aux développeurs ordinaires et aux passionnés.

Pourquoi c'est important

llama.cpp a lancé la révolution de l'IA locale. Avant lui, exécuter un modèle de langage nécessitait des GPU NVIDIA coûteux et des configurations Python complexes. llama.cpp a montré que des modèles quantifiés pouvaient tourner sur un MacBook ou même un Raspberry Pi avec une qualité acceptable. Il a engendré tout un écosystème (Ollama, LM Studio, kobold.cpp) et a fait de l'« IA auto-hébergée » une option réelle.

En profondeur

Gerganov a publié llama.cpp en mars 2023, quelques jours après la sortie de LLaMA par Meta. La version initiale pouvait exécuter LLaMA-7B sur un MacBook en utilisant la quantification 4 bits — quelque chose de précédemment considéré comme impraticable. Le projet a grandi rapidement, ajoutant le support de dizaines d'architectures (Mistral, Qwen, Phi, Gemma, Command-R), de multiples méthodes de quantification (GGML, puis GGUF), et l'accélération matérielle pour Metal (Apple), Vulkan (GPU multiplateforme) et CUDA (NVIDIA).

Pourquoi le C++ compte

Le choix du C/C++ était délibéré : pas de runtime Python, pas de dépendance PyTorch, des prérequis système minimaux. Ça permet le déploiement sur des systèmes embarqués, des appareils mobiles et des serveurs sans infrastructure GPU. Le binaire est autonome — télécharge l'exécutable, télécharge un fichier modèle GGUF, et c'est parti. Cette simplicité est ce qui a permis à l'écosystème IA local de croître si rapidement.

Mode serveur

llama.cpp inclut un mode serveur qui expose une API compatible avec OpenAI, en faisant un remplacement direct des API cloud en développement. Beaucoup de développeurs utilisent le serveur llama.cpp en local pour le développement et les tests, ne passant aux API cloud que pour la production. Ça maintient les coûts de développement proches de zéro et évite d'envoyer des données sensibles à des services externes pendant le développement.

llama.cpp

Pourquoi c'est important

En profondeur

Pourquoi le C++ compte

Mode serveur

Concepts connexes