WSE-3 擁有 44 GB 的晶片上 SRAM——不是 HBM 或 DRAM,而是直接在計算晶片上的 SRAM。這提供約 21 PB/s 的記憶體頻寬,比 GPU HBM 頻寬高出數個數量級。對於記憶體頻寬受限的操作(如 LLM 推理,受限於讀取模型權重的速度),這是一個根本性的優勢。代價是:44 GB 的晶片上記憶體無法容納最大的模型,需要跨多個 CS-3 系統的模型平行策略。
Cerebras 已展示了令人印象深刻的推理速度——以每秒超過 2,000 token 的速度服務 Llama-70B,與 Groq 的 LPU 具有競爭力甚至超越。方法不同(晶圓級晶片 vs. 確定性 ASIC),但結果相似:專門建造的硬體在 LLM token 生成這一特定工作負載上大幅超越 GPU。