Gerganov lançou o llama.cpp em março de 2023, dias após a Meta lançar o LLaMA. A versão inicial podia rodar LLaMA-7B em um MacBook usando quantização 4-bit — algo anteriormente considerado impraticável. O projeto cresceu rapidamente, adicionando suporte para dezenas de arquiteturas (Mistral, Qwen, Phi, Gemma, Command-R), múltiplos métodos de quantização (GGML, depois GGUF) e aceleração de hardware para Metal (Apple), Vulkan (GPU multiplataforma) e CUDA (NVIDIA).
A escolha de C/C++ foi deliberada: sem runtime Python, sem dependência de PyTorch, requisitos mínimos de sistema. Isso permite deploy em sistemas embarcados, dispositivos móveis e servidores sem infraestrutura de GPU. O binário é autocontido — baixe o executável, baixe um arquivo de modelo GGUF, e você já está rodando. Essa simplicidade é o que permitiu que o ecossistema de IA local crescesse tão rapidamente.
llama.cpp inclui um modo servidor que expõe uma API compatível com OpenAI, tornando-se um substituto direto para APIs de nuvem no desenvolvimento. Muitos desenvolvedores usam o servidor llama.cpp localmente para desenvolvimento e testes, mudando para APIs de nuvem apenas para produção. Isso mantém custos de desenvolvimento próximos de zero e evita enviar dados sensíveis para serviços externos durante o desenvolvimento.