GGUF：定义与含义 — AI 维基

通过 llama.cpp、Ollama 和其他本地推理工具运行量化语言模型的标准文件格式。GGUF 文件包含量化格式的模型权重（将精度从 16 位降低到 4 位或 8 位），以及词汇表、架构细节和量化参数等元数据——加载和运行模型所需的一切都在一个文件中。

为什么重要

GGUF 是使本地 AI 变得实用的格式。在它之前，本地运行模型需要复杂的 PyTorch、CUDA 和特定 GPU 内存设置。GGUF 将一切打包成一个文件，llama.cpp 或 Ollama 可以直接加载——在 CPU 上、在 Apple Silicon 上、在游戏显卡上，任何地方都可以。如果你在 Hugging Face 上看到文件名类似“Q4_K_M.gguf”的模型，那就是可以直接本地使用的模型。

深度解析

GGUF 是 GGML（原始格式）的继任者，增加了更可扩展的元数据系统和对新量化类型的支持。典型的模型发布包含不同量化级别的多个 GGUF 变体：Q2_K（最小、最低质量）、Q4_K_M（流行的平衡点）、Q5_K_M（更好质量、更大）、Q6_K、Q8_0（接近原始质量、最大）。命名约定告诉你位宽和量化方法。

量化变体

Q4_K_M 中的"K"指的是 k-quant 方法，根据层的敏感性使用不同的位宽——注意力层可能获得更高精度，而前馈层精度较低。"M"意味着"中等"（介于"S"代表小/激进和"L"代表大/保守之间）。Q4_K_M 通常保留原始模型 95% 以上的质量，同时与 FP16 相比将文件大小减少 4 倍。对大多数用户来说，Q4_K_M 或 Q5_K_M 是正确的选择。

生态系统

GGUF 已成为本地 AI 的通用语言。社区成员在新模型发布后数小时内就将其量化为 GGUF 格式并上传到 Hugging Face。llama.cpp、Ollama、LM Studio、GPT4All 和 kobold.cpp 等工具都原生支持 GGUF。正是这个生态系统使你能够下载一个 4 位量化的 70B 模型（约 40 GB），并在拥有 64 GB RAM 的 MacBook Pro 上运行——从下载到首次回复不到一分钟。

GGUF

为什么重要

深度解析

量化变体

生态系统

相关概念