Une approximation utile pour les FLOPs d'entraînement d'un Transformer : C ≈ 6 · N · D, où N est le nombre de paramètres et D les tokens traités. Le 6 vient de la passe forward (2x — un multiply-add compte comme 2 opérations) plus la passe backward (environ 2x la forward). Entraîner un modèle 7B sur 1T de tokens : 6 × 7×10^9 × 10^12 = 4.2×10^22 FLOPs. À 50% d'utilisation GPU sur des H100 (~1000 TFLOP/s effectifs), cela prend environ 500 GPU-heures.
FLOPs (sans /s) est le travail total. FLOP/s est le débit. Les GPU-heures, c'est temps × matériel. Ils sont liés : GPU-heures = FLOPs / (FLOP/s × utilisation). En pratique, l'utilisation GPU pour l'entraînement de LLM est de 30–60% (limitée par la communication, les opérations mémoire et les bulles de pipeline). Cela signifie que les 2000 TFLOP/s théoriques d'un H100 se traduisent par 600–1200 TFLOP/s de travail utile réel. Le coût suit : à 2$/GPU-heure, entraîner ce modèle 7B coûte environ 1 000$.
FLOPs d'inférence par token ≈ 2N (une passe forward). Un modèle 70B : ~140 milliards de FLOPs par token. À 1000 TFLOP/s effectifs, c'est 0.14ms par token — théoriquement 7000 tokens/seconde. En pratique, l'inférence est généralement limitée par la bande passante mémoire (lire 140 Go de poids par token à 3 To/s prend 47ms), pas par le calcul. C'est le mur mémoire : le GPU peut calculer plus vite qu'il ne peut lire les poids du modèle.