Gerganov a publié llama.cpp en mars 2023, quelques jours après la sortie de LLaMA par Meta. La version initiale pouvait exécuter LLaMA-7B sur un MacBook en utilisant la quantification 4 bits — quelque chose de précédemment considéré comme impraticable. Le projet a grandi rapidement, ajoutant le support de dizaines d'architectures (Mistral, Qwen, Phi, Gemma, Command-R), de multiples méthodes de quantification (GGML, puis GGUF), et l'accélération matérielle pour Metal (Apple), Vulkan (GPU multiplateforme) et CUDA (NVIDIA).
Le choix du C/C++ était délibéré : pas de runtime Python, pas de dépendance PyTorch, des prérequis système minimaux. Ça permet le déploiement sur des systèmes embarqués, des appareils mobiles et des serveurs sans infrastructure GPU. Le binaire est autonome — télécharge l'exécutable, télécharge un fichier modèle GGUF, et c'est parti. Cette simplicité est ce qui a permis à l'écosystème IA local de croître si rapidement.
llama.cpp inclut un mode serveur qui expose une API compatible avec OpenAI, en faisant un remplacement direct des API cloud en développement. Beaucoup de développeurs utilisent le serveur llama.cpp en local pour le développement et les tests, ne passant aux API cloud que pour la production. Ça maintient les coûts de développement proches de zéro et évite d'envoyer des données sensibles à des services externes pendant le développement.