Zubnet AIAprenderWiki › Ollama
Herramientas

Ollama

Una herramienta fácil de usar para ejecutar modelos de lenguaje localmente con un solo comando. Ollama envuelve llama.cpp en una experiencia similar a Docker: ollama run llama3 descarga y ejecuta Llama 3, seleccionando automáticamente la cuantización correcta para tu hardware. Gestiona descargas de modelos, proporciona un servidor de API y maneja la detección de hardware.

Por qué importa

Ollama es a la IA local lo que Docker es a la contenedorización: eliminó la fricción. Antes de Ollama, ejecutar un modelo local significaba elegir niveles de cuantización, descargar archivos GGUF, configurar flags de llama.cpp y gestionar la descarga a GPU. Ollama maneja todo esto automáticamente. Es el camino más rápido desde "quiero probar ejecutar IA localmente" hasta realmente hacerlo.

En profundidad

Ollama mantiene un registro de modelos (similar a Docker Hub) donde los modelos populares están disponibles en cuantizaciones preconfiguradas. Ejecutar ollama pull mistral descarga Mistral-7B con una cuantización razonable para tu sistema. La herramienta detecta tu hardware (CPU, Apple Silicon, GPU NVIDIA) y configura la inferencia en consecuencia. Expone una API HTTP en localhost:11434 que es compatible con muchas herramientas y frameworks de IA.

Modelfile

El concepto de "Modelfile" de Ollama te permite personalizar modelos especificando un modelo base, system prompt, temperatura y otros parámetros — como un Dockerfile para modelos de IA. Puedes crear variantes personalizadas: ollama create mi-asistente -f Modelfile. Esto facilita experimentar con diferentes system prompts y parámetros sin tocar los pesos del modelo.

El Stack de IA Local

Ollama es típicamente una capa en un stack de IA local: Ollama para servir modelos, Open WebUI para una interfaz de chat, y varias herramientas que se conectan vía la API (Continue para integración con IDE, LangChain para frameworks de aplicaciones). Este stack te da una configuración de IA completamente privada y sin costo que se ejecuta enteramente en tu hardware. Para aplicaciones sensibles a la privacidad y trabajo de desarrollo, es cada vez más competitivo con las APIs en la nube.

Conceptos relacionados

← Todos los términos
← NVIDIA Olvido Catastrófico →
ESC
Empieza a escribir para buscar...