GGUF 繼承了 GGML(原始格式),增加了更可擴展的元資料系統和對新量化類型的支援。典型的模型發布包含不同量化等級的多個 GGUF 變體:Q2_K(最小、最低品質)、Q4_K_M(流行的最佳平衡點)、Q5_K_M(更好的品質、更大)、Q6_K、Q8_0(接近原始品質、最大)。命名慣例告訴你位元寬度和量化方法。
Q4_K_M 中的「K」指的是 k-quant 方法,根據不同層的敏感度使用不同的位元寬度——注意力層可能獲得更高的精度,而前饋層則不是。「M」代表「中等」(介於「S」代表小型/激進和「L」代表大型/保守之間)。Q4_K_M 通常保留原始模型品質的 95% 以上,同時相比 FP16 將檔案大小減少 4 倍。對於大多數使用者,Q4_K_M 或 Q5_K_M 是正確的選擇。
GGUF 已成為本機 AI 的通用語言。社群成員在新模型發布後數小時內就將其量化為 GGUF 並上傳到 Hugging Face。llama.cpp、Ollama、LM Studio、GPT4All 和 kobold.cpp 等工具都原生支援 GGUF。這個生態系統就是為什麼你可以下載一個 4 位元量化的 70B 模型(約 40 GB),然後在配備 64 GB RAM 的 MacBook Pro 上,從下載到第一個回應不到一分鐘就能執行。