Cloud के बजाय अंतिम-उपयोगकर्ता उपकरणों (फ़ोन, लैपटॉप, कारों) पर AI चलाना। निजी, शून्य-विलंबता, ऑफ़लाइन काम करता है।
यह क्यों मायने रखता है
गोपनीयता + विलंबता + लागत का संगम। सही कार्यों के लिए आपके फ़ोन पर 3B मॉडल अक्सर datacenter में 400B को मात देता है।
गहन अध्ययन
Memory बाधा: 4-bit पर 3B ≈ 1.5 GB (फ़ोन-संभव), 7B ≈ 4 GB (लैपटॉप)। Apple Silicon unified memory ने local LLMs को संभव बनाया। आधुनिक चिप्स में NPUs (Neural Processing Units)।