अब आप एक ट्रिलियन पैरामीटर वाला AI model cloud को छुए बिना चला सकते हैं, एक मेज पर रखे Macs के एक cluster पर। LM Studio ने कहा कि उसने Apple के साथ मिलकर Kimi K2.6 को चलाया, जो Moonshot का करीब एक ट्रिलियन पैरामीटर वाला open-weight model है, और इसे आपस में जुड़े चार Mac Studio पर सुरक्षित remote access के साथ अपने software के एक preview build के जरिए चलाया। यह प्रदर्शन Apple के WWDC 2026 के आसपास दिखाया गया और यह इस बात का संकेत है कि frontier आकार के models का local यानी अपने ही परिसर में inference कितना आगे बढ़ चुका है।

यह व्यवस्था दो ऐसी चीजों पर टिकी है जिनकी तरफ Apple चुपचाप बढ़ रहा था। पहली है memory, चार Mac Studio Thunderbolt 5 के जरिए जुड़कर करीब 1.5 टेराबाइट unified memory बनाते हैं, जो एक ट्रिलियन पैरामीटर वाले model के weights रखने के लिए काफी है, वरना इसके लिए डेटासेंटर GPU का एक पूरा रैक चाहिए होता। दूसरी है एक नई क्षमता, macOS में RDMA over Thunderbolt 5, जो मशीनों को आपस में इतनी तेजी से data भेजने देती है कि वे एक ही मशीन की तरह बर्ताव करें। ऐसे cluster पर Kimi K2 की बताई गई throughput करीब 25 tokens प्रति सेकंड है, जो असली काम के लिए इस्तेमाल लायक है, और हार्डवेयर की लागत करीब 40,000 डॉलर है, जो एक व्यक्ति के लिए बहुत ज्यादा है पर समकक्ष GPU server के मुकाबले बहुत कम।

Apple के लिए यह एक positioning कदम है। WWDC 2026 में उसने Mac Studio को एक गंभीर local AI workstation के तौर पर पेश किया, और LM Studio के जरिए models चलाते हुए अपनी नई चिप पर token उत्पादन में बड़े सुधार का हवाला दिया। open-weights की दुनिया के लिए यह कुछ बड़ा है, असल बात यह है कि Kimi K2.6 जैसा एक frontier आकार का model open weights के साथ जारी होता ही है, यही उसे आपके अपने हार्डवेयर पर चलाने लायक बनाता है। बड़ी labs के closed model किसी मेज पर download नहीं हो सकते, open model हो सकते हैं, और अब यही फर्क बुद्धिमत्ता को किराए पर लेने और उसे चलाने वाली मशीन के मालिक होने के बीच का फर्क है।

इसका महत्व उस लागत की कहानी से जुड़ता है जो AI में हर जगह सामने आ रही है। Cloud inference मीटर पर चलता है, और बिल इस बात के साथ बढ़ता है कि आप इसे कितना इस्तेमाल करते हैं, जबकि local चलने वाले एक model की लागत शुरू में ही तय और एकमुश्त होती है और कोई per-token मीटर बिल्कुल नहीं होता। privacy के लिहाज से संवेदनशील या भारी मात्रा वाले काम के लिए यह गणित अब मेज के पक्ष में झुकने लगा है। ईमानदार चेतावनियां, 25 tokens प्रति सेकंड एक अकेले उपयोगकर्ता के लिए ठीक है पर कई लोगों को सेवा देने के लिए नहीं, 40,000 डॉलर एक असली रुकावट है, और vendor के throughput के दावों को सामान्य संदेह के साथ पढ़ना चाहिए। पर दिशा को चूकना मुश्किल है। frontier पहले सिर्फ डेटासेंटरों में रहता था, और एक ट्रिलियन पैरामीटर अब धीरे धीरे पर सचमुच उन कंप्यूटरों के एक cluster पर समा जाते हैं जिन्हें आप खरीद सकते हैं और बंद कर सकते हैं।