Zubnet AI学习Wiki › Ollama
工具

Ollama

一个用户友好的工具,只需一条命令即可在本地运行语言模型。Ollama 将 llama.cpp 包装成类似 Docker 的体验:ollama run llama3 会下载并运行 Llama 3,自动为你的硬件选择合适的量化级别。它管理模型下载、提供 API 服务器并处理硬件检测。

为什么重要

Ollama 对于本地 AI 就像 Docker 对于容器化:它消除了摩擦。在 Ollama 之前,运行本地模型意味着选择量化级别、下载 GGUF 文件、配置 llama.cpp 参数并管理 GPU 卸载。Ollama 自动处理这一切。它是从“我想尝试本地运行 AI”到实际运行的最快途径。

深度解析

Ollama 维护一个模型注册表(类似 Docker Hub),其中流行模型以预配置的量化级别提供。运行 ollama pull mistral 会下载适合你系统的合理量化版 Mistral-7B。该工具检测你的硬件(CPU、Apple Silicon、NVIDIA GPU)并相应配置推理。它在 localhost:11434 上暴露一个 HTTP API,与许多 AI 工具和框架兼容。

Modelfile

Ollama 的"Modelfile"概念让你通过指定基础模型、系统提示、温度和其他参数来自定义模型——就像 AI 模型的 Dockerfile。你可以创建自定义变体:ollama create my-assistant -f Modelfile。这使得无需修改模型权重即可轻松试验不同的系统提示和参数。

本地 AI 技术栈

Ollama 通常是本地 AI 技术栈中的一层:Ollama 用于模型服务,Open WebUI 提供聊天界面,以及通过 API 连接的各种工具(Continue 用于 IDE 集成,LangChain 用于应用框架)。这个技术栈为你提供了一个完全私有、零成本的 AI 设置,完全在你的硬件上运行。对于注重隐私的应用和开发工作,它与云端 API 的竞争力越来越强。

相关概念

← 所有术语
← NVIDIA ONNX →
ESC