Zubnet AIAprenderWiki › FLOPs
Fundamentos

FLOPs

Também conhecido como: Floating Point Operations, FLOP/s, Computação
Floating Point Operations — a medida padrão de trabalho computacional em IA. Treinar um modelo requer um certo número de FLOPs (operações totais). Hardware é avaliado em FLOP/s (operações por segundo). Uma GPU H100 pode executar ~2.000 TFLOP/s (2 quatrilhões de operações por segundo) em FP16. O treinamento do GPT-4 é estimado em ~10^25 FLOPs — um número tão grande que é difícil de compreender.

Por que isso importa

FLOPs são a moeda da computação de IA. Leis de escala são expressas em FLOPs. Orçamentos de treinamento são medidos em FLOPs. Comparações de GPU usam FLOP/s. Entender FLOPs ajuda a estimar custos de treinamento, comparar hardware e compreender por que o progresso da IA está tão estreitamente ligado à escala de computação. Quando as pessoas dizem "escalar computação", elas querem dizer gastar mais FLOPs.

Em profundidade

Uma aproximação útil para FLOPs de treinamento de Transformer: C ≈ 6 · N · D, onde N é a contagem de parâmetros e D são os tokens processados. O 6 vem do forward pass (2x — multiplicação-adição conta como 2 operações) mais o backward pass (aproximadamente 2x o forward). Treinar um modelo 7B com 1T tokens: 6 × 7×10^9 × 10^12 = 4,2×10^22 FLOPs. Com 50% de utilização de GPU em H100s (~1000 TFLOP/s efetivos), isso leva cerca de 500 GPU-horas.

FLOPs vs. FLOP/s vs. GPU-Horas

FLOPs (sem /s) é trabalho total. FLOP/s é a taxa. GPU-horas é tempo × hardware. Eles se relacionam: GPU-horas = FLOPs / (FLOP/s × utilização). Na prática, a utilização de GPU para treinamento de LLM é 30–60% (limitada por comunicação, operações de memória e bolhas de pipeline). Isso significa que os 2000 TFLOP/s teóricos de uma H100 se traduzem em 600–1200 TFLOP/s de trabalho útil real. O custo segue: a US$2/GPU-hora, treinar aquele modelo 7B custa aproximadamente US$1.000.

FLOPs de Inferência

FLOPs de inferência por token ≈ 2N (um forward pass). Um modelo 70B: ~140 bilhões de FLOPs por token. A 1000 TFLOP/s efetivos, são 0,14ms por token — teoricamente 7000 tokens/segundo. Na prática, inferência é geralmente limitada pela largura de banda de memória (ler 140GB de pesos por token a 3TB/s leva 47ms), não pela computação. Essa é a memory wall: a GPU pode computar mais rápido do que pode ler os pesos do modelo.

Conceitos relacionados

← Todos os termos
← Flash Attention Flow Matching →