Cerebras : Définition et signification — Wiki IA

Une entreprise de puces qui construit des processeurs d'IA à l'échelle du wafer — des puces de la taille d'un wafer de silicium entier, plus de 100x plus grandes qu'un GPU standard. Le Cerebras WSE-3 (Wafer Scale Engine) contient 4 trillions de transistors et 900 000 cœurs. Leurs systèmes CS-3 sont conçus tant pour l'entraînement que l'inférence, offrant une alternative aux clusters de milliers de GPU individuels.

Pourquoi c'est important

Cerebras représente la refonte la plus radicale du matériel d'IA. Au lieu de connecter des milliers de petites puces avec une bande passante limitée, ils mettent tout sur une seule puce massive avec une bande passante mémoire sur puce énorme. L'avantage potentiel est d'éliminer le goulot d'étranglement de communication qui limite l'entraînement multi-GPU. La question à un milliard de dollars est de savoir si le calcul à l'échelle du wafer peut concurrencer l'écosystème massif de NVIDIA.

En profondeur

Le WSE-3 a 44 Go de SRAM sur puce — pas de HBM ou DRAM, mais de la SRAM directement sur le die de calcul. Cela fournit environ 21 Po/s de bande passante mémoire, des ordres de grandeur de plus que la bande passante HBM des GPU. Pour les opérations limitées par la bande passante mémoire (comme l'inférence LLM, qui est limitée par la vitesse à laquelle tu peux lire les poids du modèle), c'est un avantage fondamental. Le compromis : 44 Go de mémoire sur puce ne peut pas contenir les plus grands modèles, nécessitant des stratégies de parallélisme de modèle sur plusieurs systèmes CS-3.

Vitesse d'inférence

Cerebras a démontré des vitesses d'inférence impressionnantes — servant Llama-70B à plus de 2 000 tokens/seconde, compétitif avec ou dépassant le LPU de Groq. L'approche est différente (puce à l'échelle du wafer vs. ASIC déterministes) mais le résultat est similaire : du matériel spécialisé qui surpasse dramatiquement les GPU pour la charge de travail spécifique de la génération de tokens LLM.

Cerebras

Pourquoi c'est important

En profondeur

Vitesse d'inférence

Concepts connexes