Cerebras: Definição e significado — Wiki de IA

Uma empresa de chips que constrói processadores de IA em escala de wafer — chips do tamanho de um wafer inteiro de silício, mais de 100x maiores que uma GPU padrão. O Cerebras WSE-3 (Wafer Scale Engine) contém 4 trilhões de transistores e 900.000 núcleos. Seus sistemas CS-3 são projetados tanto para treinamento quanto para inferência, oferecendo uma alternativa a clusters de milhares de GPUs individuais.

Por que isso importa

Cerebras representa o repensar mais radical do hardware de IA. Em vez de conectar milhares de chips pequenos com largura de banda limitada, eles colocam tudo em um chip massivo com enorme largura de banda de memória on-chip. A vantagem potencial é eliminar o gargalo de comunicação que limita o treinamento multi-GPU. Se a computação em escala de wafer pode competir com o ecossistema massivo da NVIDIA é a pergunta de bilhões de dólares.

Em profundidade

O WSE-3 tem 44 GB de SRAM on-chip — não HBM ou DRAM, mas SRAM diretamente no die de computação. Isso fornece ~21 PB/s de largura de banda de memória, ordens de magnitude mais que a largura de banda de HBM de GPUs. Para operações limitadas por largura de banda de memória (como inferência de LLM, que é limitada por quão rápido você pode ler os pesos do modelo), esta é uma vantagem fundamental. O trade-off: 44 GB de memória on-chip não cabem os maiores modelos, exigindo estratégias de paralelismo de modelo entre múltiplos sistemas CS-3.

Velocidade de Inferência

Cerebras demonstrou velocidades de inferência impressionantes — servindo Llama-70B a mais de 2.000 tokens/segundo, competitivo com ou superando o LPU da Groq. A abordagem é diferente (chip em escala de wafer vs. ASICs determinísticos) mas o resultado é similar: hardware construído sob medida que supera dramaticamente GPUs para a carga de trabalho específica de geração de tokens em LLMs.

Cerebras

Por que isso importa

Em profundidade

Velocidade de Inferência

Conceitos relacionados