Zubnet AI学习Wiki › GGUF
基础设施

GGUF

别名:GGML 统一格式
通过 llama.cpp、Ollama 和其他本地推理工具运行量化语言模型的标准文件格式。GGUF 文件包含量化格式的模型权重(将精度从 16 位降低到 4 位或 8 位),以及词汇表、架构细节和量化参数等元数据——加载和运行模型所需的一切都在一个文件中。

为什么重要

GGUF 是使本地 AI 变得实用的格式。在它之前,本地运行模型需要复杂的 PyTorch、CUDA 和特定 GPU 内存设置。GGUF 将一切打包成一个文件,llama.cpp 或 Ollama 可以直接加载——在 CPU 上、在 Apple Silicon 上、在游戏显卡上,任何地方都可以。如果你在 Hugging Face 上看到文件名类似“Q4_K_M.gguf”的模型,那就是可以直接本地使用的模型。

深度解析

GGUF 是 GGML(原始格式)的继任者,增加了更可扩展的元数据系统和对新量化类型的支持。典型的模型发布包含不同量化级别的多个 GGUF 变体:Q2_K(最小、最低质量)、Q4_K_M(流行的平衡点)、Q5_K_M(更好质量、更大)、Q6_K、Q8_0(接近原始质量、最大)。命名约定告诉你位宽和量化方法。

量化变体

Q4_K_M 中的"K"指的是 k-quant 方法,根据层的敏感性使用不同的位宽——注意力层可能获得更高精度,而前馈层精度较低。"M"意味着"中等"(介于"S"代表小/激进和"L"代表大/保守之间)。Q4_K_M 通常保留原始模型 95% 以上的质量,同时与 FP16 相比将文件大小减少 4 倍。对大多数用户来说,Q4_K_M 或 Q5_K_M 是正确的选择。

生态系统

GGUF 已成为本地 AI 的通用语言。社区成员在新模型发布后数小时内就将其量化为 GGUF 格式并上传到 Hugging Face。llama.cpp、Ollama、LM Studio、GPT4All 和 kobold.cpp 等工具都原生支持 GGUF。正是这个生态系统使你能够下载一个 4 位量化的 70B 模型(约 40 GB),并在拥有 64 GB RAM 的 MacBook Pro 上运行——从下载到首次回复不到一分钟。

相关概念

← 所有术语
← GAN GNN →
ESC