Zubnet AIसीखेंWiki › Ollama
Tools

Ollama

एक single command से language models locally run करने के लिए एक user-friendly tool। Ollama llama.cpp को एक Docker-like experience में wrap करता है: ollama run llama3 Llama 3 download और run करता है, आपके hardware के लिए right quantization automatically select करते हुए। ये model downloads manage करता है, एक API server provide करता है, और hardware detection handle करता है।

यह क्यों matter करता है

Ollama local AI के लिए वही है जो Docker containerization के लिए है: इसने friction remove कर दिया। Ollama से पहले, एक local model run करने का मतलब quantization levels choose करना, GGUF files download करना, llama.cpp flags configure करना, और GPU offloading manage करना होता था। Ollama ये सब automatically handle करता है। “मैं locally AI run करने की कोशिश करना चाहता हूँ” से actually करने तक का सबसे fastest path है।

Deep Dive

Ollama maintains a registry of models (similar to Docker Hub) where popular models are available in pre-configured quantizations. Running ollama pull mistral downloads Mistral-7B at a reasonable quantization for your system. The tool detects your hardware (CPU, Apple Silicon, NVIDIA GPU) and configures inference accordingly. It exposes an HTTP API on localhost:11434 that's compatible with many AI tools and frameworks.

Modelfile

Ollama's "Modelfile" concept lets you customize models by specifying a base model, system prompt, temperature, and other parameters — like a Dockerfile for AI models. You can create custom variants: ollama create my-assistant -f Modelfile. This makes it easy to experiment with different system prompts and parameters without touching model weights.

The Local AI Stack

Ollama is typically one layer in a local AI stack: Ollama for model serving, Open WebUI for a chat interface, and various tools that connect via the API (Continue for IDE integration, LangChain for application frameworks). This stack gives you a fully private, cost-free AI setup that runs entirely on your hardware. For privacy-sensitive applications and development work, it's increasingly competitive with cloud APIs.

संबंधित अवधारणाएँ

← सभी Terms
← NVIDIA ONNX →