Ollama：定义与含义 — AI 维基

一个用户友好的工具，只需一条命令即可在本地运行语言模型。Ollama 将 llama.cpp 包装成类似 Docker 的体验：ollama run llama3 会下载并运行 Llama 3，自动为你的硬件选择合适的量化级别。它管理模型下载、提供 API 服务器并处理硬件检测。

为什么重要

Ollama 对于本地 AI 就像 Docker 对于容器化：它消除了摩擦。在 Ollama 之前，运行本地模型意味着选择量化级别、下载 GGUF 文件、配置 llama.cpp 参数并管理 GPU 卸载。Ollama 自动处理这一切。它是从“我想尝试本地运行 AI”到实际运行的最快途径。

深度解析

Ollama 维护一个模型注册表（类似 Docker Hub），其中流行模型以预配置的量化级别提供。运行 ollama pull mistral 会下载适合你系统的合理量化版 Mistral-7B。该工具检测你的硬件（CPU、Apple Silicon、NVIDIA GPU）并相应配置推理。它在 localhost:11434 上暴露一个 HTTP API，与许多 AI 工具和框架兼容。

Modelfile

Ollama 的"Modelfile"概念让你通过指定基础模型、系统提示、温度和其他参数来自定义模型——就像 AI 模型的 Dockerfile。你可以创建自定义变体：ollama create my-assistant -f Modelfile。这使得无需修改模型权重即可轻松试验不同的系统提示和参数。

本地 AI 技术栈

Ollama 通常是本地 AI 技术栈中的一层：Ollama 用于模型服务，Open WebUI 提供聊天界面，以及通过 API 连接的各种工具（Continue 用于 IDE 集成，LangChain 用于应用框架）。这个技术栈为你提供了一个完全私有、零成本的 AI 设置，完全在你的硬件上运行。对于注重隐私的应用和开发工作，它与云端 API 的竞争力越来越强。

Ollama

为什么重要

深度解析

Modelfile

本地 AI 技术栈

相关概念