Uma aproximação útil para FLOPs de treinamento de Transformer: C ≈ 6 · N · D, onde N é a contagem de parâmetros e D são os tokens processados. O 6 vem do forward pass (2x — multiplicação-adição conta como 2 operações) mais o backward pass (aproximadamente 2x o forward). Treinar um modelo 7B com 1T tokens: 6 × 7×10^9 × 10^12 = 4,2×10^22 FLOPs. Com 50% de utilização de GPU em H100s (~1000 TFLOP/s efetivos), isso leva cerca de 500 GPU-horas.
FLOPs (sem /s) é trabalho total. FLOP/s é a taxa. GPU-horas é tempo × hardware. Eles se relacionam: GPU-horas = FLOPs / (FLOP/s × utilização). Na prática, a utilização de GPU para treinamento de LLM é 30–60% (limitada por comunicação, operações de memória e bolhas de pipeline). Isso significa que os 2000 TFLOP/s teóricos de uma H100 se traduzem em 600–1200 TFLOP/s de trabalho útil real. O custo segue: a US$2/GPU-hora, treinar aquele modelo 7B custa aproximadamente US$1.000.
FLOPs de inferência por token ≈ 2N (um forward pass). Um modelo 70B: ~140 bilhões de FLOPs por token. A 1000 TFLOP/s efetivos, são 0,14ms por token — teoricamente 7000 tokens/segundo. Na prática, inferência é geralmente limitada pela largura de banda de memória (ler 140GB de pesos por token a 3TB/s leva 47ms), não pela computação. Essa é a memory wall: a GPU pode computar mais rápido do que pode ler os pesos do modelo.