Une compagnie de puces qui construit des processeurs IA à l'échelle de la wafer — des puces de la taille d'une wafer de silicium entière, plus de 100x plus grandes qu'un GPU standard. Le Cerebras WSE-3 (Wafer Scale Engine) contient 4 trillions de transistors et 900 000 cœurs. Leurs systèmes CS-3 sont conçus pour l'entraînement et l'inférence, offrant une alternative aux clusters de milliers de GPU individuels.
Pourquoi c'est important
Cerebras représente la refonte la plus radicale du hardware IA. Au lieu de connecter des milliers de petites puces avec de la bande passante limitée, ils mettent tout sur une puce massive avec une énorme bande passante mémoire sur la puce. L'avantage potentiel est d'éliminer le goulot d'étranglement de communication qui limite l'entraînement multi-GPU. Si le wafer-scale computing peut compétitionner avec l'écosystème massif de NVIDIA est la question à un milliard de dollars.
Deep Dive
The WSE-3 has 44 GB of on-chip SRAM — not HBM or DRAM, but SRAM directly on the compute die. This provides ~21 PB/s of memory bandwidth, orders of magnitude more than GPU HBM bandwidth. For memory-bandwidth-bound operations (like LLM inference, which is limited by how fast you can read model weights), this is a fundamental advantage. The trade-off: 44 GB of on-chip memory can't hold the largest models, requiring model-parallel strategies across multiple CS-3 systems.
Inference Speed
Cerebras has demonstrated impressive inference speeds — serving Llama-70B at over 2,000 tokens/second, competitive with or exceeding Groq's LPU. The approach is different (wafer-scale chip vs. deterministic ASICs) but the result is similar: purpose-built hardware that dramatically outperforms GPUs for the specific workload of LLM token generation.