Ollama：定義與含義 — AI 維基

一個使用者友善的工具，可以用單一命令在本機執行語言模型。Ollama 將 llama.cpp 包裝成類似 Docker 的體驗：ollama run llama3 下載並執行 Llama 3，自動為你的硬體選擇合適的量化。它管理模型下載、提供 API 伺服器，並處理硬體偵測。

為什麼重要

Ollama 之於本機 AI 就像 Docker 之於容器化：它消除了摩擦。在 Ollama 之前，執行本機模型意味著選擇量化等級、下載 GGUF 檔案、配置 llama.cpp 標誌和管理 GPU 卸載。Ollama 自動處理所有這些。從「我想嘗試在本機執行 AI」到實際做到，這是最快的路徑。

深度解析

Ollama 維護一個模型註冊表（類似 Docker Hub），其中流行的模型以預配置的量化提供。執行 ollama pull mistral 會為你的系統下載以合理量化的 Mistral-7B。該工具偵測你的硬體（CPU、Apple Silicon、NVIDIA GPU）並相應配置推理。它在 localhost:11434 上公開 HTTP API，與許多 AI 工具和框架相容。

Modelfile

Ollama 的「Modelfile」概念讓你可以透過指定基礎模型、系統提示、溫度和其他參數來自訂模型——就像 AI 模型的 Dockerfile。你可以建立自訂變體：ollama create my-assistant -f Modelfile。這使得用不同的系統提示和參數進行實驗變得容易，無需觸及模型權重。

本機 AI 堆疊

Ollama 通常是本機 AI 堆疊中的一層：Ollama 用於模型服務、Open WebUI 用於聊天介面，以及透過 API 連接的各種工具（Continue 用於 IDE 整合、LangChain 用於應用程式框架）。這個堆疊為你提供了一個完全私密、零成本的 AI 設定，完全在你的硬體上執行。對於隱私敏感的應用程式和開發工作，它越來越有競爭力，可與雲端 API 相媲美。

Ollama

為什麼重要

深度解析

Modelfile

本機 AI 堆疊

相關概念