Le WSE-3 a 44 Go de SRAM sur puce — pas de HBM ou DRAM, mais de la SRAM directement sur le die de calcul. Cela fournit environ 21 Po/s de bande passante mémoire, des ordres de grandeur de plus que la bande passante HBM des GPU. Pour les opérations limitées par la bande passante mémoire (comme l'inférence LLM, qui est limitée par la vitesse à laquelle tu peux lire les poids du modèle), c'est un avantage fondamental. Le compromis : 44 Go de mémoire sur puce ne peut pas contenir les plus grands modèles, nécessitant des stratégies de parallélisme de modèle sur plusieurs systèmes CS-3.
Cerebras a démontré des vitesses d'inférence impressionnantes — servant Llama-70B à plus de 2 000 tokens/seconde, compétitif avec ou dépassant le LPU de Groq. L'approche est différente (puce à l'échelle du wafer vs. ASIC déterministes) mais le résultat est similaire : du matériel spécialisé qui surpasse dramatiquement les GPU pour la charge de travail spécifique de la génération de tokens LLM.