Cerebras: Definition & Meaning — AI Wiki

Uma empresa de chips que constrói processadores IA em escala de wafer — chips do tamanho de uma wafer de silício inteira, mais de 100x maiores que uma GPU padrão. O Cerebras WSE-3 (Wafer Scale Engine) contém 4 trilhões de transistores e 900.000 núcleos. Seus sistemas CS-3 são projetados tanto para treinamento quanto inferência, oferecendo uma alternativa a clusters de milhares de GPUs individuais.

Por que importa

Cerebras representa o repensamento mais radical do hardware IA. Em vez de conectar milhares de chips pequenos com largura de banda limitada, eles colocam tudo em um chip massivo com enorme largura de banda de memória on-chip. A vantagem potencial é eliminar o gargalo de comunicação que limita o treinamento multi-GPU. Se a computação em escala de wafer pode competir com o massivo ecossistema da NVIDIA é a pergunta de bilhão de dólares.

Deep Dive

The WSE-3 has 44 GB of on-chip SRAM — not HBM or DRAM, but SRAM directly on the compute die. This provides ~21 PB/s of memory bandwidth, orders of magnitude more than GPU HBM bandwidth. For memory-bandwidth-bound operations (like LLM inference, which is limited by how fast you can read model weights), this is a fundamental advantage. The trade-off: 44 GB of on-chip memory can't hold the largest models, requiring model-parallel strategies across multiple CS-3 systems.

Inference Speed

Cerebras has demonstrated impressive inference speeds — serving Llama-70B at over 2,000 tokens/second, competitive with or exceeding Groq's LPU. The approach is different (wafer-scale chip vs. deterministic ASICs) but the result is similar: purpose-built hardware that dramatically outperforms GPUs for the specific workload of LLM token generation.

Cerebras

Por que importa

Deep Dive

Inference Speed

Conceitos relacionados