Groq : Définition et signification — Wiki IA

Puces d'inférence IA custom (LPU). Conçues expressément pour la génération séquentielle de tokens. 500–800 tok/s, souvent 10x plus rapide que les GPU.

Pourquoi c'est important

A prouvé que l'inférence n'a pas à être lente. Approche matérielle vs optimisation logicielle.

En profondeur

Modèle d'exécution déterministe qui élimine le surcoût d'ordonnancement. Compromis : inférence uniquement, optimal pour les patterns Transformer standards. Coût par token encore en évolution.

Groq

Pourquoi c'est important

En profondeur

Concepts connexes