Groq: Definición y significado — Wiki de IA

Chips de inferencia de IA personalizados (LPUs). Diseñados específicamente para la generación secuencial de tokens. 500–800 tok/s, a menudo 10x más rápido que las GPUs.

Por qué importa

Demostró que la inferencia no tiene que ser lenta. Un enfoque de hardware contra la optimización de software.

En profundidad

El modelo de ejecución determinística elimina la sobrecarga de programación (scheduling). Las GPUs son procesadores generalistas que necesitan programar dinámicamente las operaciones; las LPUs de Groq ejecutan un plan de ejecución fijo y predeterminado, eliminando la latencia de coordinación.

Trade-offs

Las LPUs son solo para inferencia (no sirven para entrenamiento), y funcionan mejor con patrones estándar de Transformer. Arquitecturas exóticas o modelos con branching dinámico pueden no encajar bien. Además, la capacidad de memoria por chip es más limitada que las GPUs de gama alta, lo que restringe el tamaño de los modelos que pueden servir.

Costo por token

El costo por token sigue evolucionando. La velocidad bruta es impresionante, pero la pregunta económica es si el costo total (hardware custom + menor flexibilidad + ecosistema más pequeño) es competitivo con las GPUs altamente optimizadas que sirven múltiples modelos y workloads en la misma infraestructura.

Groq

Por qué importa

En profundidad

Trade-offs

Costo por token

Conceptos relacionados