ollama run llama3 下載並執行 Llama 3,自動為你的硬體選擇合適的量化。它管理模型下載、提供 API 伺服器,並處理硬體偵測。
Ollama 維護一個模型註冊表(類似 Docker Hub),其中流行的模型以預配置的量化提供。執行 ollama pull mistral 會為你的系統下載以合理量化的 Mistral-7B。該工具偵測你的硬體(CPU、Apple Silicon、NVIDIA GPU)並相應配置推理。它在 localhost:11434 上公開 HTTP API,與許多 AI 工具和框架相容。
Ollama 的「Modelfile」概念讓你可以透過指定基礎模型、系統提示、溫度和其他參數來自訂模型——就像 AI 模型的 Dockerfile。你可以建立自訂變體:ollama create my-assistant -f Modelfile。這使得用不同的系統提示和參數進行實驗變得容易,無需觸及模型權重。
Ollama 通常是本機 AI 堆疊中的一層:Ollama 用於模型服務、Open WebUI 用於聊天介面,以及透過 API 連接的各種工具(Continue 用於 IDE 整合、LangChain 用於應用程式框架)。這個堆疊為你提供了一個完全私密、零成本的 AI 設定,完全在你的硬體上執行。對於隱私敏感的應用程式和開發工作,它越來越有競爭力,可與雲端 API 相媲美。