公司

Groq

别名：Groq LPU

定制AI推理芯片（LPU）。专为顺序token生成而设计。500到800 tok/s，通常比GPU快10倍。

为什么重要

证明了推理不必很慢。硬件路线 vs. 软件优化路线。

深度解析

确定性执行模型消除了调度开销。权衡取舍：仅用于推理，对标准Transformer模式效果最佳。每token成本仍在演进中。

相关概念

← 所有术语

← GQA HeyGen →