Transformer प्रशिक्षण FLOPs के लिए एक उपयोगी अनुमान: C ≈ 6 · N · D, जहां N पैरामीटर काउंट है और D प्रोसेस किए गए टोकन हैं। 6 forward pass (2x — multiply-add 2 ऑपरेशन के रूप में गिनता है) प्लस backward pass (लगभग 2x forward) से आता है। 1T टोकन पर 7B मॉडल प्रशिक्षित करना: 6 × 7×10^9 × 10^12 = 4.2×10^22 FLOPs। H100s पर 50% GPU utilization (~1000 TFLOP/s effective) पर, यह लगभग 500 GPU-hours लेता है।
FLOPs (/s के बिना) कुल काम है। FLOP/s दर है। GPU-hours समय × हार्डवेयर है। वे संबंधित हैं: GPU-hours = FLOPs / (FLOP/s × utilization)। व्यवहार में, LLM प्रशिक्षण के लिए GPU utilization 30–60% है (communication, मेमोरी ऑपरेशन, और pipeline bubbles द्वारा सीमित)। इसका मतलब है कि H100 का सैद्धांतिक 2000 TFLOP/s वास्तविक उपयोगी काम के 600–1200 TFLOP/s में अनुवादित होता है। लागत इस प्रकार है: $2/GPU-hour पर, उस 7B मॉडल को प्रशिक्षित करने की लागत लगभग $1,000 है।
प्रति टोकन Inference FLOPs ≈ 2N (एक forward pass)। 70B मॉडल: प्रति टोकन ~140 बिलियन FLOPs। 1000 TFLOP/s effective पर, यह प्रति टोकन 0.14ms है — सैद्धांतिक रूप से 7000 tokens/second। व्यवहार में, inference आमतौर पर memory-bandwidth-bound होता है (3TB/s पर 140GB weights पढ़ने में 47ms लगते हैं), compute-bound नहीं। यह memory wall है: GPU weights पढ़ने की तुलना में तेज़ गणना कर सकता है।