定制AI推理芯片(LPU)。专为顺序token生成而设计。500到800 tok/s,通常比GPU快10倍。
证明了推理不必很慢。硬件路线 vs. 软件优化路线。
确定性执行模型消除了调度开销。权衡取舍:仅用于推理,对标准Transformer模式效果最佳。每token成本仍在演进中。