ollama run llama3 descarga y ejecuta Llama 3, seleccionando automáticamente la cuantización correcta para tu hardware. Gestiona descargas de modelos, proporciona un servidor de API y maneja la detección de hardware.
Ollama mantiene un registro de modelos (similar a Docker Hub) donde los modelos populares están disponibles en cuantizaciones preconfiguradas. Ejecutar ollama pull mistral descarga Mistral-7B con una cuantización razonable para tu sistema. La herramienta detecta tu hardware (CPU, Apple Silicon, GPU NVIDIA) y configura la inferencia en consecuencia. Expone una API HTTP en localhost:11434 que es compatible con muchas herramientas y frameworks de IA.
El concepto de "Modelfile" de Ollama te permite personalizar modelos especificando un modelo base, system prompt, temperatura y otros parámetros — como un Dockerfile para modelos de IA. Puedes crear variantes personalizadas: ollama create mi-asistente -f Modelfile. Esto facilita experimentar con diferentes system prompts y parámetros sin tocar los pesos del modelo.
Ollama es típicamente una capa en un stack de IA local: Ollama para servir modelos, Open WebUI para una interfaz de chat, y varias herramientas que se conectan vía la API (Continue para integración con IDE, LangChain para frameworks de aplicaciones). Este stack te da una configuración de IA completamente privada y sin costo que se ejecuta enteramente en tu hardware. Para aplicaciones sensibles a la privacidad y trabajo de desarrollo, es cada vez más competitivo con las APIs en la nube.