GGUF：定義與含義 — AI 維基

透過 llama.cpp、Ollama 和其他本機推理工具在本機執行量化語言模型的標準檔案格式。GGUF 檔案包含量化格式的模型權重（將精度從 16 位元降至 4 位元或 8 位元），以及詞彙表、架構細節和量化參數等元資料——在單一檔案中包含載入和執行模型所需的一切。

為什麼重要

GGUF 是使本機 AI 變得實用的格式。在此之前，在本機執行模型需要使用 PyTorch、CUDA 的複雜設定和特定的 GPU 記憶體。GGUF 將所有內容打包到一個檔案中，llama.cpp 或 Ollama 可以直接載入——在 CPU 上、在 Apple Silicon 上、在遊戲 GPU 上，任何地方都可以。如果你在 Hugging Face 上看到檔名如「Q4_K_M.gguf」的模型，那就是一個準備好在本機使用的模型。

深度解析

GGUF 繼承了 GGML（原始格式），增加了更可擴展的元資料系統和對新量化類型的支援。典型的模型發布包含不同量化等級的多個 GGUF 變體：Q2_K（最小、最低品質）、Q4_K_M（流行的最佳平衡點）、Q5_K_M（更好的品質、更大）、Q6_K、Q8_0（接近原始品質、最大）。命名慣例告訴你位元寬度和量化方法。

量化變體

Q4_K_M 中的「K」指的是 k-quant 方法，根據不同層的敏感度使用不同的位元寬度——注意力層可能獲得更高的精度，而前饋層則不是。「M」代表「中等」（介於「S」代表小型/激進和「L」代表大型/保守之間）。Q4_K_M 通常保留原始模型品質的 95% 以上，同時相比 FP16 將檔案大小減少 4 倍。對於大多數使用者，Q4_K_M 或 Q5_K_M 是正確的選擇。

生態系統

GGUF 已成為本機 AI 的通用語言。社群成員在新模型發布後數小時內就將其量化為 GGUF 並上傳到 Hugging Face。llama.cpp、Ollama、LM Studio、GPT4All 和 kobold.cpp 等工具都原生支援 GGUF。這個生態系統就是為什麼你可以下載一個 4 位元量化的 70B 模型（約 40 GB），然後在配備 64 GB RAM 的 MacBook Pro 上，從下載到第一個回應不到一分鐘就能執行。

GGUF

為什麼重要

深度解析

量化變體

生態系統

相關概念