ollama run llama3 Llama 3 को download और run करता है, आपके hardware के लिए स्वचालित रूप से सही quantization का चयन करता है। यह model downloads को manage करता है, API server प्रदान करता है, और hardware detection संभालता है।
Ollama models की एक registry maintain करता है (Docker Hub के समान) जहां लोकप्रिय models pre-configured quantizations में उपलब्ध हैं। ollama pull mistral चलाने से आपके system के लिए एक reasonable quantization पर Mistral-7B download होता है। Tool आपके hardware (CPU, Apple Silicon, NVIDIA GPU) का पता लगाता है और उसके अनुसार inference configure करता है। यह localhost:11434 पर HTTP API expose करता है जो कई AI tools और frameworks के साथ compatible है।
Ollama का "Modelfile" concept आपको base model, system prompt, temperature, और अन्य parameters specify करके models customize करने देता है — AI models के लिए Dockerfile की तरह। आप custom variants बना सकते हैं: ollama create my-assistant -f Modelfile। यह model weights को छुए बिना विभिन्न system prompts और parameters के साथ experiment करना आसान बनाता है।
Ollama आमतौर पर local AI stack में एक layer है: model serving के लिए Ollama, chat interface के लिए Open WebUI, और API के माध्यम से connect होने वाले विभिन्न tools (IDE integration के लिए Continue, application frameworks के लिए LangChain)। यह stack आपको एक पूरी तरह private, cost-free AI setup देता है जो पूरी तरह आपके hardware पर चलता है। Privacy-sensitive applications और development work के लिए, यह cloud APIs के साथ बढ़ती प्रतिस्पर्धा में है।