एक चिप कंपनी जो वेफ़र-स्केल AI प्रोसेसर बनाती है — एक पूरे सिलिकॉन वेफ़र के आकार की चिप, मानक GPU से 100x से अधिक बड़ी। Cerebras WSE-3 (Wafer Scale Engine) में 4 ट्रिलियन ट्रांजिस्टर और 900,000 कोर हैं। उनके CS-3 सिस्टम प्रशिक्षण और inference दोनों के लिए डिज़ाइन किए गए हैं, हज़ारों व्यक्तिगत GPUs के clusters का विकल्प प्रदान करते हैं।
यह क्यों मायने रखता है
Cerebras AI हार्डवेयर की सबसे कट्टरपंथी पुनर्कल्पना का प्रतिनिधित्व करता है। हज़ारों छोटी चिप्स को सीमित bandwidth के साथ जोड़ने के बजाय, वे विशाल ऑन-चिप मेमोरी bandwidth के साथ सब कुछ एक विशाल चिप पर रखते हैं। संभावित लाभ उस संचार bottleneck को समाप्त करना है जो मल्टी-GPU प्रशिक्षण को सीमित करता है। क्या वेफ़र-स्केल computing NVIDIA के विशाल ecosystem के साथ प्रतिस्पर्धा कर सकती है, यह अरब-डॉलर का सवाल है।
गहन अध्ययन
WSE-3 में 44 GB ऑन-चिप SRAM है — HBM या DRAM नहीं, बल्कि compute die पर सीधे SRAM। यह ~21 PB/s मेमोरी bandwidth प्रदान करता है, GPU HBM bandwidth से कई गुना अधिक। मेमोरी-bandwidth-bound ऑपरेशन (जैसे LLM inference, जो मॉडल वज़न को कितनी तेज़ी से पढ़ सकता है इससे सीमित होता है) के लिए, यह एक मौलिक लाभ है। ट्रेड-ऑफ: 44 GB ऑन-चिप मेमोरी सबसे बड़े मॉडल को नहीं रख सकती, जिसके लिए कई CS-3 सिस्टम में model-parallel रणनीतियों की आवश्यकता होती है।
Inference गति
Cerebras ने प्रभावशाली inference गति का प्रदर्शन किया है — Llama-70B को 2,000 से अधिक टोकन/सेकंड पर सेवा देना, Groq के LPU के बराबर या उससे अधिक। दृष्टिकोण अलग है (वेफ़र-स्केल चिप बनाम deterministic ASICs) लेकिन परिणाम समान है: विशेष-निर्मित हार्डवेयर जो LLM टोकन जनरेशन के विशिष्ट workload के लिए GPUs से नाटकीय रूप से बेहतर प्रदर्शन करता है।