El WSE-3 tiene 44 GB de SRAM en chip — no HBM o DRAM, sino SRAM directamente en el die de cómputo. Esto proporciona ~21 PB/s de ancho de banda de memoria, órdenes de magnitud más que el ancho de banda HBM de las GPUs. Para operaciones limitadas por el ancho de banda de memoria (como la inferencia de LLMs, que está limitada por la velocidad con que puedes leer los pesos del modelo), esta es una ventaja fundamental. La compensación: 44 GB de memoria en chip no pueden contener los modelos más grandes, requiriendo estrategias de paralelismo de modelos entre múltiples sistemas CS-3.
Cerebras ha demostrado velocidades de inferencia impresionantes — sirviendo Llama-70B a más de 2,000 tokens/segundo, competitivo con o superando la LPU de Groq. El enfoque es diferente (chip a escala de oblea vs. ASICs determinísticos) pero el resultado es similar: hardware diseñado específicamente que supera dramáticamente a las GPUs para la carga de trabajo específica de generación de tokens de LLMs.