Cerebras: Definition & Meaning — AI Wiki

Una compañía de chips que construye procesadores IA a escala de wafer — chips del tamaño de una wafer de silicio entera, más de 100x más grandes que un GPU estándar. El Cerebras WSE-3 (Wafer Scale Engine) contiene 4 trillones de transistores y 900.000 núcleos. Sus sistemas CS-3 están diseñados tanto para entrenamiento como inferencia, ofreciendo una alternativa a clusters de miles de GPUs individuales.

Por qué importa

Cerebras representa el repensamiento más radical del hardware IA. En vez de conectar miles de chips pequeños con ancho de banda limitado, ponen todo en un chip masivo con enorme ancho de banda de memoria en chip. La ventaja potencial es eliminar el cuello de botella de comunicación que limita el entrenamiento multi-GPU. Si la computación a escala de wafer puede competir con el masivo ecosistema de NVIDIA es la pregunta de mil millones de dólares.

Deep Dive

The WSE-3 has 44 GB of on-chip SRAM — not HBM or DRAM, but SRAM directly on the compute die. This provides ~21 PB/s of memory bandwidth, orders of magnitude more than GPU HBM bandwidth. For memory-bandwidth-bound operations (like LLM inference, which is limited by how fast you can read model weights), this is a fundamental advantage. The trade-off: 44 GB of on-chip memory can't hold the largest models, requiring model-parallel strategies across multiple CS-3 systems.

Inference Speed

Cerebras has demonstrated impressive inference speeds — serving Llama-70B at over 2,000 tokens/second, competitive with or exceeding Groq's LPU. The approach is different (wafer-scale chip vs. deterministic ASICs) but the result is similar: purpose-built hardware that dramatically outperforms GPUs for the specific workload of LLM token generation.

Cerebras

Por qué importa

Deep Dive

Inference Speed

Conceptos relacionados