FLOPs：定义与含义 — AI 维基

浮点运算——AI中计算工作量的标准度量。训练模型需要一定数量的FLOPs（总运算量）。硬件以FLOP/s（每秒运算量）评级。H100 GPU在FP16下可执行约2,000 TFLOP/s（每秒2千万亿次运算）。GPT-4的训练估计约为10^25 FLOPs——一个大到难以理解的数字。

为什么重要

FLOPs是AI算力的货币。缩放定律以FLOPs表示。训练预算以FLOPs衡量。GPU比较使用FLOP/s。理解FLOPs帮助你估算训练成本、比较硬件，并理解为什么AI进步与算力扩展如此密切相关。当人们说"扩展算力"时，他们的意思是花费更多FLOPs。

深度解析

Transformer训练FLOPs的有用近似：C ≈ 6 · N · D，其中N是参数数量，D是处理的token数。6来自前向传播（2x——乘加计为2次运算）加反向传播（大约是前向的2x）。训练一个7B模型处理1T token：6 × 7×10^9 × 10^12 = 4.2×10^22 FLOPs。以H100上50%的GPU利用率（有效约1000 TFLOP/s），大约需要500 GPU小时。

FLOPs vs. FLOP/s vs. GPU小时

FLOPs（不带/s）是总工作量。FLOP/s是速率。GPU小时是时间 × 硬件。它们的关系：GPU小时 = FLOPs / (FLOP/s × 利用率)。实际上，LLM训练的GPU利用率为30–60%（受通信、内存操作和流水线气泡限制）。这意味着H100理论上的2000 TFLOP/s转化为600–1200 TFLOP/s的实际有效工作。成本随之而来：按每GPU小时2美元计算，训练那个7B模型大约花费1,000美元。

推理FLOPs

每token推理FLOPs ≈ 2N（一次前向传播）。70B模型：每token约1400亿FLOPs。以1000 TFLOP/s的有效速率，每token约0.14ms——理论上每秒7000 token。实际上，推理通常受内存带宽限制（以3TB/s读取140GB权重需要47ms），而非计算限制。这就是内存墙：GPU计算速度快于读取模型权重的速度。

FLOPs

为什么重要

深度解析

FLOPs vs. FLOP/s vs. GPU小时

推理FLOPs

相关概念