Una aproximación útil para FLOPs de entrenamiento de Transformers: C ≈ 6 · N · D, donde N es el conteo de parámetros y D son los tokens procesados. El 6 viene del pase forward (2x — multiplicar-sumar cuenta como 2 operaciones) más el pase backward (aproximadamente 2x el forward). Entrenar un modelo de 7B en 1T de tokens: 6 × 7×10^9 × 10^12 = 4.2×10^22 FLOPs. Al 50% de utilización de GPU en H100s (~1000 TFLOP/s efectivos), eso toma unas 500 horas-GPU.
FLOPs (sin /s) es trabajo total. FLOP/s es la tasa. Horas-GPU es tiempo × hardware. Se relacionan: horas-GPU = FLOPs / (FLOP/s × utilización). En la práctica, la utilización de GPU para entrenamiento de LLMs es del 30–60% (limitada por comunicación, operaciones de memoria y burbujas del pipeline). Esto significa que los teóricos 2000 TFLOP/s de un H100 se traducen en 600–1200 TFLOP/s de trabajo útil real. El costo sigue: a $2/hora-GPU, entrenar ese modelo de 7B cuesta aproximadamente $1,000.
FLOPs de inferencia por token ≈ 2N (un pase forward). Un modelo de 70B: ~140 mil millones de FLOPs por token. A 1000 TFLOP/s efectivos, eso es 0.14ms por token — teóricamente 7000 tokens/segundo. En la práctica, la inferencia está usualmente limitada por el ancho de banda de memoria (leer 140GB de pesos por token a 3TB/s toma 47ms), no por el cómputo. Esta es la pared de memoria: la GPU puede calcular más rápido de lo que puede leer los pesos del modelo.