llama.cpp: परिभाषा और अर्थ — AI विकी

Consumer hardware पर LLM inference चलाने के लिए Georgi Gerganov द्वारा बनाई गई एक open-source C/C++ library। llama.cpp CUDA, PyTorch, या Python की आवश्यकता के बिना quantized inference करता है — यह CPUs, Apple Silicon, और consumer GPUs पर चलता है। यह पहला tool था जिसने बड़े language models को locally चलाना सामान्य developers और enthusiasts के लिए सुलभ बनाया।

यह क्यों मायने रखता है

llama.cpp ने local AI revolution शुरू की। इससे पहले, language model चलाने के लिए महंगे NVIDIA GPUs और complex Python setups की आवश्यकता थी। llama.cpp ने दिखाया कि quantized models MacBook या Raspberry Pi पर भी स्वीकार्य quality के साथ चल सकते हैं। इसने एक पूरा ecosystem (Ollama, LM Studio, kobold.cpp) जन्म दिया और "self-hosted AI" को एक वास्तविक विकल्प बनाया।

गहन अध्ययन

Gerganov ने llama.cpp मार्च 2023 में release किया, Meta द्वारा LLaMA release करने के कुछ दिनों बाद। प्रारंभिक version 4-bit quantization का उपयोग करके MacBook पर LLaMA-7B चला सकता था — जो पहले impractical माना जाता था। Project तेज़ी से बढ़ा, दर्जनों architectures (Mistral, Qwen, Phi, Gemma, Command-R) के लिए support, कई quantization methods (GGML, फिर GGUF), और Metal (Apple), Vulkan (cross-platform GPU), और CUDA (NVIDIA) के लिए hardware acceleration जोड़ा।

C++ क्यों मायने रखता है

C/C++ का चुनाव जानबूझकर था: कोई Python runtime नहीं, कोई PyTorch dependency नहीं, न्यूनतम system requirements। यह embedded systems, mobile devices, और बिना GPU infrastructure वाले servers पर deployment सक्षम करता है। Binary self-contained है — executable download करें, GGUF model file download करें, और आप चला रहे हैं। यह सरलता ही है जिसने local AI ecosystem को इतनी तेज़ी से बढ़ने दिया।

Server Mode

llama.cpp में एक server mode शामिल है जो OpenAI-compatible API expose करता है, जिससे यह development में cloud APIs का drop-in replacement बन जाता है। कई developers locally development और testing के लिए llama.cpp server का उपयोग करते हैं, केवल production के लिए cloud APIs पर switch करते हैं। यह development costs को लगभग शून्य रखता है और development के दौरान sensitive data को external services को भेजने से बचाता है।

llama.cpp

यह क्यों मायने रखता है

गहन अध्ययन

C++ क्यों मायने रखता है

Server Mode

संबंधित अवधारणाएँ