llama.cpp: Definição e significado — Wiki de IA

Uma biblioteca open-source em C/C++ para executar inferência de LLM em hardware de consumo, criada por Georgi Gerganov. llama.cpp realiza inferência quantizada sem exigir CUDA, PyTorch ou Python — roda em CPUs, Apple Silicon e GPUs de consumo. Foi a primeira ferramenta a tornar a execução local de grandes modelos de linguagem acessível a desenvolvedores e entusiastas comuns.

Por que isso importa

llama.cpp iniciou a revolução da IA local. Antes dele, rodar um modelo de linguagem exigia GPUs NVIDIA caras e configurações complexas de Python. llama.cpp mostrou que modelos quantizados podiam rodar em um MacBook ou até um Raspberry Pi com qualidade aceitável. Gerou um ecossistema inteiro (Ollama, LM Studio, kobold.cpp) e tornou "IA auto-hospedada" uma opção real.

Em profundidade

Gerganov lançou o llama.cpp em março de 2023, dias após a Meta lançar o LLaMA. A versão inicial podia rodar LLaMA-7B em um MacBook usando quantização 4-bit — algo anteriormente considerado impraticável. O projeto cresceu rapidamente, adicionando suporte para dezenas de arquiteturas (Mistral, Qwen, Phi, Gemma, Command-R), múltiplos métodos de quantização (GGML, depois GGUF) e aceleração de hardware para Metal (Apple), Vulkan (GPU multiplataforma) e CUDA (NVIDIA).

Por Que C++ Importa

A escolha de C/C++ foi deliberada: sem runtime Python, sem dependência de PyTorch, requisitos mínimos de sistema. Isso permite deploy em sistemas embarcados, dispositivos móveis e servidores sem infraestrutura de GPU. O binário é autocontido — baixe o executável, baixe um arquivo de modelo GGUF, e você já está rodando. Essa simplicidade é o que permitiu que o ecossistema de IA local crescesse tão rapidamente.

Modo Servidor

llama.cpp inclui um modo servidor que expõe uma API compatível com OpenAI, tornando-se um substituto direto para APIs de nuvem no desenvolvimento. Muitos desenvolvedores usam o servidor llama.cpp localmente para desenvolvimento e testes, mudando para APIs de nuvem apenas para produção. Isso mantém custos de desenvolvimento próximos de zero e evita enviar dados sensíveis para serviços externos durante o desenvolvimento.

llama.cpp

Por que isso importa

Em profundidade

Por Que C++ Importa

Modo Servidor

Conceitos relacionados