Zubnet AIAprenderWiki › FLOPs
Fundamentos

FLOPs

También conocido como: Floating Point Operations, FLOP/s, Cómputo
Floating Point Operations — la medida estándar del trabajo computacional en IA. Entrenar un modelo requiere un cierto número de FLOPs (operaciones totales). El hardware se evalúa en FLOP/s (operaciones por segundo). Una GPU H100 puede realizar ~2,000 TFLOP/s (2 cuatrillones de operaciones por segundo) en FP16. Se estima que el entrenamiento de GPT-4 fue ~10^25 FLOPs — un número tan grande que es difícil de comprender.

Por qué importa

Los FLOPs son la moneda del cómputo en IA. Las leyes de escala se expresan en FLOPs. Los presupuestos de entrenamiento se miden en FLOPs. Las comparaciones de GPU usan FLOP/s. Entender los FLOPs te ayuda a estimar costos de entrenamiento, comparar hardware y entender por qué el progreso de la IA está tan estrechamente vinculado al escalado del cómputo. Cuando la gente dice "escalar el cómputo", se refiere a gastar más FLOPs.

En profundidad

Una aproximación útil para FLOPs de entrenamiento de Transformers: C ≈ 6 · N · D, donde N es el conteo de parámetros y D son los tokens procesados. El 6 viene del pase forward (2x — multiplicar-sumar cuenta como 2 operaciones) más el pase backward (aproximadamente 2x el forward). Entrenar un modelo de 7B en 1T de tokens: 6 × 7×10^9 × 10^12 = 4.2×10^22 FLOPs. Al 50% de utilización de GPU en H100s (~1000 TFLOP/s efectivos), eso toma unas 500 horas-GPU.

FLOPs vs. FLOP/s vs. horas-GPU

FLOPs (sin /s) es trabajo total. FLOP/s es la tasa. Horas-GPU es tiempo × hardware. Se relacionan: horas-GPU = FLOPs / (FLOP/s × utilización). En la práctica, la utilización de GPU para entrenamiento de LLMs es del 30–60% (limitada por comunicación, operaciones de memoria y burbujas del pipeline). Esto significa que los teóricos 2000 TFLOP/s de un H100 se traducen en 600–1200 TFLOP/s de trabajo útil real. El costo sigue: a $2/hora-GPU, entrenar ese modelo de 7B cuesta aproximadamente $1,000.

FLOPs de inferencia

FLOPs de inferencia por token ≈ 2N (un pase forward). Un modelo de 70B: ~140 mil millones de FLOPs por token. A 1000 TFLOP/s efectivos, eso es 0.14ms por token — teóricamente 7000 tokens/segundo. En la práctica, la inferencia está usualmente limitada por el ancho de banda de memoria (leer 140GB de pesos por token a 3TB/s toma 47ms), no por el cómputo. Esta es la pared de memoria: la GPU puede calcular más rápido de lo que puede leer los pesos del modelo.

Conceptos relacionados

← Todos los términos