Zubnet AIApprendreWiki › Groq
Entreprises

Groq

Groq LPU
Une compagnie de puces construisant des processeurs custom d'inférence IA appelés LPU (Language Processing Units). Contrairement aux GPU NVIDIA, qui sont des processeurs parallèles généralistes adaptés pour l'IA, les LPU de Groq sont construits exprès pour la génération séquentielle de tokens que l'inférence LLM demande. Le résultat : des vitesses d'inférence extrêmement rapides, souvent 10x plus rapides que les alternatives basées GPU pour la génération de LLM.

Pourquoi c'est important

Groq a démontré que l'inférence de LLM n'a pas à être lente. Leur API cloud sert des modèles ouverts (Llama, Mixtral) à des vitesses de 500–800 tokens par seconde — assez vite pour que les réponses apparaissent presque instantanément. Cet avantage de vitesse vient de l'architecture hardware, pas de l'optimisation logicielle, suggérant que l'approche centrée GPU actuelle de l'inférence IA pourrait ne pas être le gagnant à long terme.

Deep Dive

The LPU (Language Processing Unit) is built around a deterministic execution model. Unlike GPUs, which schedule work dynamically and suffer from memory bandwidth bottlenecks, LPUs have a fixed dataflow architecture where computation and data movement are orchestrated at compile time. This eliminates scheduling overhead and allows the chip to sustain near-peak throughput for the sequential, memory-bound operations that dominate LLM inference (especially token generation, which is limited by how fast you can read model weights from memory).

The Trade-offs

Groq's speed advantage comes with constraints. The deterministic architecture works best for models that fit a known execution pattern — standard Transformer inference. Custom architectures, training workloads, and highly dynamic computation graphs are harder to map to the LPU. Groq is also an inference-only solution; you still need GPUs (or TPUs) for training. And the cost-per-token, while decreasing, isn't always cheaper than GPU inference for high-throughput batch workloads where GPUs can amortize their flexibility.

Concepts liés

← Tous les termes
← Gradient Descent Grounding →