Zubnet AI學習Wiki › Ollama
工具

Ollama

一個使用者友善的工具,可以用單一命令在本機執行語言模型。Ollama 將 llama.cpp 包裝成類似 Docker 的體驗:ollama run llama3 下載並執行 Llama 3,自動為你的硬體選擇合適的量化。它管理模型下載、提供 API 伺服器,並處理硬體偵測。

為什麼重要

Ollama 之於本機 AI 就像 Docker 之於容器化:它消除了摩擦。在 Ollama 之前,執行本機模型意味著選擇量化等級、下載 GGUF 檔案、配置 llama.cpp 標誌和管理 GPU 卸載。Ollama 自動處理所有這些。從「我想嘗試在本機執行 AI」到實際做到,這是最快的路徑。

深度解析

Ollama 維護一個模型註冊表(類似 Docker Hub),其中流行的模型以預配置的量化提供。執行 ollama pull mistral 會為你的系統下載以合理量化的 Mistral-7B。該工具偵測你的硬體(CPU、Apple Silicon、NVIDIA GPU)並相應配置推理。它在 localhost:11434 上公開 HTTP API,與許多 AI 工具和框架相容。

Modelfile

Ollama 的「Modelfile」概念讓你可以透過指定基礎模型、系統提示、溫度和其他參數來自訂模型——就像 AI 模型的 Dockerfile。你可以建立自訂變體:ollama create my-assistant -f Modelfile。這使得用不同的系統提示和參數進行實驗變得容易,無需觸及模型權重。

本機 AI 堆疊

Ollama 通常是本機 AI 堆疊中的一層:Ollama 用於模型服務、Open WebUI 用於聊天介面,以及透過 API 連接的各種工具(Continue 用於 IDE 整合、LangChain 用於應用程式框架)。這個堆疊為你提供了一個完全私密、零成本的 AI 設定,完全在你的硬體上執行。對於隱私敏感的應用程式和開發工作,它越來越有競爭力,可與雲端 API 相媲美。

相關概念

← 所有術語
← NVIDIA ONNX →