GGUF 是使本地 AI 变得实用的格式。在它之前,本地运行模型需要复杂的 PyTorch、CUDA 和特定 GPU 内存设置。GGUF 将一切打包成一个文件,llama.cpp 或 Ollama 可以直接加载——在 CPU 上、在 Apple Silicon 上、在游戏显卡上,任何地方都可以。如果你在 Hugging Face 上看到文件名类似“Q4_K_M.gguf”的模型,那就是可以直接本地使用的模型。
GGUF 是 GGML(原始格式)的继任者,增加了更可扩展的元数据系统和对新量化类型的支持。典型的模型发布包含不同量化级别的多个 GGUF 变体:Q2_K(最小、最低质量)、Q4_K_M(流行的平衡点)、Q5_K_M(更好质量、更大)、Q6_K、Q8_0(接近原始质量、最大)。命名约定告诉你位宽和量化方法。
Q4_K_M 中的"K"指的是 k-quant 方法,根据层的敏感性使用不同的位宽——注意力层可能获得更高精度,而前馈层精度较低。"M"意味着"中等"(介于"S"代表小/激进和"L"代表大/保守之间)。Q4_K_M 通常保留原始模型 95% 以上的质量,同时与 FP16 相比将文件大小减少 4 倍。对大多数用户来说,Q4_K_M 或 Q5_K_M 是正确的选择。
GGUF 已成为本地 AI 的通用语言。社区成员在新模型发布后数小时内就将其量化为 GGUF 格式并上传到 Hugging Face。llama.cpp、Ollama、LM Studio、GPT4All 和 kobold.cpp 等工具都原生支持 GGUF。正是这个生态系统使你能够下载一个 4 位量化的 70B 模型(约 40 GB),并在拥有 64 GB RAM 的 MacBook Pro 上运行——从下载到首次回复不到一分钟。