Zubnet AIAprenderWiki › Ollama
Ferramentas

Ollama

Uma ferramenta amigável para rodar modelos de linguagem localmente com um único comando. Ollama envolve o llama.cpp em uma experiência similar ao Docker: ollama run llama3 baixa e executa o Llama 3, selecionando automaticamente a quantização certa para seu hardware. Gerencia downloads de modelos, fornece um servidor de API e cuida da detecção de hardware.

Por que isso importa

Ollama é para a IA local o que o Docker é para a containerização: removeu a fricção. Antes do Ollama, rodar um modelo local significava escolher níveis de quantização, baixar arquivos GGUF, configurar flags do llama.cpp e gerenciar offloading de GPU. Ollama cuida de tudo isso automaticamente. É o caminho mais rápido de "quero tentar rodar IA localmente" até realmente fazê-lo.

Em profundidade

Ollama mantém um registro de modelos (similar ao Docker Hub) onde modelos populares estão disponíveis em quantizações pré-configuradas. Executar ollama pull mistral baixa o Mistral-7B numa quantização razoável para seu sistema. A ferramenta detecta seu hardware (CPU, Apple Silicon, GPU NVIDIA) e configura a inferência de acordo. Expõe uma API HTTP em localhost:11434 que é compatível com muitas ferramentas e frameworks de IA.

Modelfile

O conceito de "Modelfile" do Ollama permite personalizar modelos especificando um modelo base, prompt de sistema, temperatura e outros parâmetros — como um Dockerfile para modelos de IA. Você pode criar variantes customizadas: ollama create meu-assistente -f Modelfile. Isso facilita experimentar com diferentes prompts de sistema e parâmetros sem tocar nos pesos do modelo.

A Stack de IA Local

Ollama é tipicamente uma camada na stack de IA local: Ollama para servir modelos, Open WebUI para interface de chat, e várias ferramentas que se conectam via API (Continue para integração com IDE, LangChain para frameworks de aplicações). Essa stack dá a você uma configuração de IA completamente privada e gratuita que roda inteiramente no seu hardware. Para aplicações sensíveis a privacidade e trabalho de desenvolvimento, é cada vez mais competitiva com APIs de nuvem.

Conceitos relacionados

← Todos os termos
← NVIDIA ONNX →