Groq: Definição e significado — Wiki de IA

Chips customizados de inferência de IA (LPUs). Construídos especificamente para geração sequencial de tokens. 500–800 tok/s, frequentemente 10x mais rápido que GPUs.

Por que isso importa

Provou que inferência não precisa ser lenta. Abordagem de hardware vs. otimização de software.

Em profundidade

Modelo de execução determinística elimina overhead de agendamento. Trade-offs: apenas inferência, melhor para padrões Transformer padrão. Custo por token ainda evoluindo.

LPU vs GPU

GPUs são processadores de propósito geral otimizados para paralelismo massivo. LPUs (Language Processing Units) da Groq são especializadas para o padrão específico de inferência de LLMs: operações matriciais sequenciais com padrões de acesso à memória previsíveis. Execução determinística significa sem overhead de agendamento — cada ciclo de clock é produtivo.

O Impacto no Mercado

Groq demonstrou que inferência a 500+ tokens/segundo é possível, mudando as expectativas do mercado. Respostas em tempo real abrem casos de uso (conversação por voz, jogos, tempo real) que eram impraticáveis com latências tradicionais de GPU. O trade-off é que LPUs são apenas para inferência — não treinam modelos.

Groq

Por que isso importa

Em profundidade

LPU vs GPU

O Impacto no Mercado

Conceitos relacionados