FLOPs是AI算力的货币。缩放定律以FLOPs表示。训练预算以FLOPs衡量。GPU比较使用FLOP/s。理解FLOPs帮助你估算训练成本、比较硬件,并理解为什么AI进步与算力扩展如此密切相关。当人们说"扩展算力"时,他们的意思是花费更多FLOPs。
Transformer训练FLOPs的有用近似:C ≈ 6 · N · D,其中N是参数数量,D是处理的token数。6来自前向传播(2x——乘加计为2次运算)加反向传播(大约是前向的2x)。训练一个7B模型处理1T token:6 × 7×10^9 × 10^12 = 4.2×10^22 FLOPs。以H100上50%的GPU利用率(有效约1000 TFLOP/s),大约需要500 GPU小时。
FLOPs(不带/s)是总工作量。FLOP/s是速率。GPU小时是时间 × 硬件。它们的关系:GPU小时 = FLOPs / (FLOP/s × 利用率)。实际上,LLM训练的GPU利用率为30–60%(受通信、内存操作和流水线气泡限制)。这意味着H100理论上的2000 TFLOP/s转化为600–1200 TFLOP/s的实际有效工作。成本随之而来:按每GPU小时2美元计算,训练那个7B模型大约花费1,000美元。
每token推理FLOPs ≈ 2N(一次前向传播)。70B模型:每token约1400亿FLOPs。以1000 TFLOP/s的有效速率,每token约0.14ms——理论上每秒7000 token。实际上,推理通常受内存带宽限制(以3TB/s读取140GB权重需要47ms),而非计算限制。这就是内存墙:GPU计算速度快于读取模型权重的速度。