WSE-3拥有44 GB的片上SRAM——不是HBM或DRAM,而是直接在计算芯片上的SRAM。这提供了约21 PB/s的内存带宽,比GPU HBM带宽高出多个数量级。对于受内存带宽限制的操作(如LLM推理,受限于读取模型权重的速度),这是一个根本性的优势。权衡在于:44 GB的片上内存无法容纳最大的模型,需要跨多个CS-3系统的模型并行策略。
Cerebras展示了令人印象深刻的推理速度——以超过每秒2000个token的速度服务Llama-70B,与Groq的LPU相当或超过。方法不同(晶圆级芯片 vs. 确定性ASIC),但结果类似:为LLM token生成这一特定工作负载而构建的专用硬件,大幅超越GPU的性能。