GGUF: परिभाषा और अर्थ — AI विकी

llama.cpp, Ollama, और अन्य local inference tools के माध्यम से quantized language models को locally चलाने का मानक file format। GGUF files में model weights quantized format में (precision को 16-bit से 4-bit या 8-bit तक कम करके) होते हैं, साथ ही metadata जैसे vocabulary, architecture details, और quantization parameters — model को load और run करने के लिए आवश्यक सब कुछ एक ही file में।

यह क्यों मायने रखता है

GGUF वह format है जिसने local AI को व्यावहारिक बनाया। इससे पहले, models locally चलाने के लिए PyTorch, CUDA, और विशिष्ट GPU memory के साथ complex setups की आवश्यकता थी। GGUF सब कुछ एक file में package करता है जिसे llama.cpp या Ollama सीधे load कर सकता है — CPU पर, Apple Silicon पर, gaming GPUs पर, कहीं भी। यदि आप Hugging Face पर "Q4_K_M.gguf" जैसे filenames वाला model देखते हैं, तो वह local use के लिए तैयार model है।

गहन अध्ययन

GGUF ने GGML (original format) को succeed किया, एक अधिक extensible metadata system और नए quantization types के लिए support जोड़ा। एक typical model release में विभिन्न quantization levels पर कई GGUF variants शामिल होते हैं: Q2_K (सबसे छोटा, सबसे कम quality), Q4_K_M (लोकप्रिय sweet spot), Q5_K_M (बेहतर quality, बड़ा), Q6_K, Q8_0 (near-original quality, सबसे बड़ा)। Naming convention आपको bit-width और quantization method बताता है।

Quantization Variants

Q4_K_M में "K" k-quant methods को संदर्भित करता है जो विभिन्न layers के लिए उनकी sensitivity के आधार पर अलग-अलग bit-widths का उपयोग करते हैं — attention layers को feed-forward layers से अधिक precision मिल सकती है। "M" का अर्थ है "medium" ("S" small/aggressive और "L" large/conservative के बीच)। Q4_K_M आमतौर पर FP16 की तुलना में file size 4x कम करते हुए original model quality का 95%+ preserve करता है। अधिकांश उपयोगकर्ताओं के लिए, Q4_K_M या Q5_K_M सही विकल्प है।

Ecosystem

GGUF local AI की lingua franca बन गया है। Community members नए models को release के कुछ ही घंटों में GGUF में quantize करते हैं और Hugging Face पर upload करते हैं। llama.cpp, Ollama, LM Studio, GPT4All, और kobold.cpp जैसे tools सभी GGUF को natively support करते हैं। यही ecosystem है जिसके कारण आप 4-bit quantization पर 70B model (लगभग 40 GB) download कर सकते हैं और download से first response तक एक मिनट से कम में 64 GB RAM वाले MacBook Pro पर चला सकते हैं।

GGUF

यह क्यों मायने रखता है

गहन अध्ययन

Quantization Variants

Ecosystem

संबंधित अवधारणाएँ