O WSE-3 tem 44 GB de SRAM on-chip — não HBM ou DRAM, mas SRAM diretamente no die de computação. Isso fornece ~21 PB/s de largura de banda de memória, ordens de magnitude mais que a largura de banda de HBM de GPUs. Para operações limitadas por largura de banda de memória (como inferência de LLM, que é limitada por quão rápido você pode ler os pesos do modelo), esta é uma vantagem fundamental. O trade-off: 44 GB de memória on-chip não cabem os maiores modelos, exigindo estratégias de paralelismo de modelo entre múltiplos sistemas CS-3.
Cerebras demonstrou velocidades de inferência impressionantes — servindo Llama-70B a mais de 2.000 tokens/segundo, competitivo com ou superando o LPU da Groq. A abordagem é diferente (chip em escala de wafer vs. ASICs determinísticos) mas o resultado é similar: hardware construído sob medida que supera dramaticamente GPUs para a carga de trabalho específica de geração de tokens em LLMs.