llama.cpp: Definición y significado — Wiki de IA

Una biblioteca de código abierto en C/C++ para ejecutar inferencia de LLM en hardware de consumo, creada por Georgi Gerganov. llama.cpp realiza inferencia cuantizada sin requerir CUDA, PyTorch o Python — funciona en CPUs, Apple Silicon y GPUs de consumo. Fue la primera herramienta que hizo accesible la ejecución de grandes modelos de lenguaje localmente para desarrolladores y entusiastas comunes.

Por qué importa

llama.cpp inició la revolución de la IA local. Antes, ejecutar un modelo de lenguaje requería GPUs NVIDIA costosas y configuraciones complejas de Python. llama.cpp demostró que los modelos cuantizados podían ejecutarse en un MacBook o incluso una Raspberry Pi con calidad aceptable. Generó todo un ecosistema (Ollama, LM Studio, kobold.cpp) e hizo que la "IA autoalojada" fuera una opción real.

En profundidad

Gerganov lanzó llama.cpp en marzo de 2023, días después de que Meta lanzara LLaMA. La versión inicial podía ejecutar LLaMA-7B en un MacBook usando cuantización de 4 bits — algo previamente considerado impráctico. El proyecto creció rápidamente, añadiendo soporte para docenas de arquitecturas (Mistral, Qwen, Phi, Gemma, Command-R), múltiples métodos de cuantización (GGML, luego GGUF), y aceleración por hardware para Metal (Apple), Vulkan (GPU multiplataforma) y CUDA (NVIDIA).

Por Qué C++ Importa

La elección de C/C++ fue deliberada: sin runtime de Python, sin dependencia de PyTorch, requisitos de sistema mínimos. Esto permite el despliegue en sistemas embebidos, dispositivos móviles y servidores sin infraestructura GPU. El binario es autocontenido — descarga el ejecutable, descarga un archivo de modelo GGUF y ya estás ejecutando. Esta simplicidad es lo que permitió que el ecosistema de IA local creciera tan rápidamente.

Modo Servidor

llama.cpp incluye un modo servidor que expone una API compatible con OpenAI, convirtiéndolo en un reemplazo directo para APIs en la nube durante el desarrollo. Muchos desarrolladores usan el servidor de llama.cpp localmente para desarrollo y pruebas, cambiando a APIs en la nube solo para producción. Esto mantiene los costos de desarrollo cerca de cero y evita enviar datos sensibles a servicios externos durante el desarrollo.

llama.cpp

Por qué importa

En profundidad

Por Qué C++ Importa

Modo Servidor

Conceptos relacionados