Zubnet AIAprenderWiki › Ollama
Herramientas

Ollama

Una herramienta amigable al usuario para correr modelos de lenguaje localmente con un solo comando. Ollama envuelve llama.cpp en una experiencia tipo Docker: ollama run llama3 descarga y corre Llama 3, seleccionando automáticamente la cuantización correcta para tu hardware. Maneja descargas de modelos, provee un servidor API y maneja detección de hardware.

Por qué importa

Ollama es a la IA local lo que Docker es a la containerización: removió la fricción. Antes de Ollama, correr un modelo local significaba elegir niveles de cuantización, descargar archivos GGUF, configurar flags de llama.cpp y gestionar el offloading de GPU. Ollama maneja todo esto automáticamente. Es el camino más rápido desde «quiero probar correr IA localmente» hasta realmente hacerlo.

Deep Dive

Ollama maintains a registry of models (similar to Docker Hub) where popular models are available in pre-configured quantizations. Running ollama pull mistral downloads Mistral-7B at a reasonable quantization for your system. The tool detects your hardware (CPU, Apple Silicon, NVIDIA GPU) and configures inference accordingly. It exposes an HTTP API on localhost:11434 that's compatible with many AI tools and frameworks.

Modelfile

Ollama's "Modelfile" concept lets you customize models by specifying a base model, system prompt, temperature, and other parameters — like a Dockerfile for AI models. You can create custom variants: ollama create my-assistant -f Modelfile. This makes it easy to experiment with different system prompts and parameters without touching model weights.

The Local AI Stack

Ollama is typically one layer in a local AI stack: Ollama for model serving, Open WebUI for a chat interface, and various tools that connect via the API (Continue for IDE integration, LangChain for application frameworks). This stack gives you a fully private, cost-free AI setup that runs entirely on your hardware. For privacy-sensitive applications and development work, it's increasingly competitive with cloud APIs.

Conceptos relacionados

← Todos los términos
← NVIDIA ONNX →