Zubnet AIAprenderWiki › Groq
Empresas

Groq

Groq LPU
Uma empresa de chips construindo processadores custom de inferência IA chamados LPUs (Language Processing Units). Diferente das GPUs da NVIDIA, que são processadores paralelos de propósito geral adaptados para IA, as LPUs da Groq são construídas especialmente para a geração sequencial de tokens que a inferência LLM exige. O resultado: velocidades de inferência extremamente rápidas, muitas vezes 10x mais rápidas que alternativas baseadas em GPU para geração LLM.

Por que importa

Groq demonstrou que inferência LLM não tem que ser lenta. Seu API cloud serve modelos abertos (Llama, Mixtral) a velocidades de 500–800 tokens por segundo — rápido o suficiente para respostas aparecerem quase instantaneamente. Essa vantagem de velocidade vem da arquitetura hardware, não da otimização de software, sugerindo que a abordagem atual centrada em GPU da inferência IA pode não ser a vencedora de longo prazo.

Deep Dive

The LPU (Language Processing Unit) is built around a deterministic execution model. Unlike GPUs, which schedule work dynamically and suffer from memory bandwidth bottlenecks, LPUs have a fixed dataflow architecture where computation and data movement are orchestrated at compile time. This eliminates scheduling overhead and allows the chip to sustain near-peak throughput for the sequential, memory-bound operations that dominate LLM inference (especially token generation, which is limited by how fast you can read model weights from memory).

The Trade-offs

Groq's speed advantage comes with constraints. The deterministic architecture works best for models that fit a known execution pattern — standard Transformer inference. Custom architectures, training workloads, and highly dynamic computation graphs are harder to map to the LPU. Groq is also an inference-only solution; you still need GPUs (or TPUs) for training. And the cost-per-token, while decreasing, isn't always cheaper than GPU inference for high-throughput batch workloads where GPUs can amortize their flexibility.

Conceitos relacionados

← Todos os termos
← Gradient Descent Grounding →