Gerganov lanzó llama.cpp en marzo de 2023, días después de que Meta lanzara LLaMA. La versión inicial podía ejecutar LLaMA-7B en un MacBook usando cuantización de 4 bits — algo previamente considerado impráctico. El proyecto creció rápidamente, añadiendo soporte para docenas de arquitecturas (Mistral, Qwen, Phi, Gemma, Command-R), múltiples métodos de cuantización (GGML, luego GGUF), y aceleración por hardware para Metal (Apple), Vulkan (GPU multiplataforma) y CUDA (NVIDIA).
La elección de C/C++ fue deliberada: sin runtime de Python, sin dependencia de PyTorch, requisitos de sistema mínimos. Esto permite el despliegue en sistemas embebidos, dispositivos móviles y servidores sin infraestructura GPU. El binario es autocontenido — descarga el ejecutable, descarga un archivo de modelo GGUF y ya estás ejecutando. Esta simplicidad es lo que permitió que el ecosistema de IA local creciera tan rápidamente.
llama.cpp incluye un modo servidor que expone una API compatible con OpenAI, convirtiéndolo en un reemplazo directo para APIs en la nube durante el desarrollo. Muchos desarrolladores usan el servidor de llama.cpp localmente para desarrollo y pruebas, cambiando a APIs en la nube solo para producción. Esto mantiene los costos de desarrollo cerca de cero y evita enviar datos sensibles a servicios externos durante el desarrollo.