ollama run llama3 baixa e executa o Llama 3, selecionando automaticamente a quantização certa para seu hardware. Gerencia downloads de modelos, fornece um servidor de API e cuida da detecção de hardware.
Ollama mantém um registro de modelos (similar ao Docker Hub) onde modelos populares estão disponíveis em quantizações pré-configuradas. Executar ollama pull mistral baixa o Mistral-7B numa quantização razoável para seu sistema. A ferramenta detecta seu hardware (CPU, Apple Silicon, GPU NVIDIA) e configura a inferência de acordo. Expõe uma API HTTP em localhost:11434 que é compatível com muitas ferramentas e frameworks de IA.
O conceito de "Modelfile" do Ollama permite personalizar modelos especificando um modelo base, prompt de sistema, temperatura e outros parâmetros — como um Dockerfile para modelos de IA. Você pode criar variantes customizadas: ollama create meu-assistente -f Modelfile. Isso facilita experimentar com diferentes prompts de sistema e parâmetros sem tocar nos pesos do modelo.
Ollama é tipicamente uma camada na stack de IA local: Ollama para servir modelos, Open WebUI para interface de chat, e várias ferramentas que se conectam via API (Continue para integração com IDE, LangChain para frameworks de aplicações). Essa stack dá a você uma configuração de IA completamente privada e gratuita que roda inteiramente no seu hardware. Para aplicações sensíveis a privacidade e trabalho de desenvolvimento, é cada vez mais competitiva com APIs de nuvem.