Zubnet AIसीखेंWiki › FLOPs
मूल तत्व

FLOPs

इसे भी कहा जाता है: Floating Point Operations, FLOP/s, Compute
Floating Point Operations — AI में कम्प्यूटेशनल कार्य का मानक माप। एक मॉडल को प्रशिक्षित करने के लिए एक निश्चित संख्या में FLOPs (कुल ऑपरेशन) की आवश्यकता होती है। हार्डवेयर FLOP/s (प्रति सेकंड ऑपरेशन) में रेट किया जाता है। एक H100 GPU FP16 में ~2,000 TFLOP/s (2 क्वाड्रिलियन ऑपरेशन प्रति सेकंड) कर सकता है। GPT-4 के प्रशिक्षण का अनुमान ~10^25 FLOPs है — एक इतनी बड़ी संख्या कि इसे समझना कठिन है।

यह क्यों मायने रखता है

FLOPs AI compute की मुद्रा हैं। Scaling laws FLOPs में व्यक्त किए जाते हैं। प्रशिक्षण बजट FLOPs में मापे जाते हैं। GPU तुलना FLOP/s का उपयोग करती है। FLOPs को समझना आपको प्रशिक्षण लागत का अनुमान लगाने, हार्डवेयर की तुलना करने, और यह समझने में मदद करता है कि AI प्रगति compute scaling से इतनी निकट से क्यों जुड़ी है। जब लोग "scaling compute" कहते हैं, तो उनका मतलब अधिक FLOPs खर्च करना है।

गहन अध्ययन

Transformer प्रशिक्षण FLOPs के लिए एक उपयोगी अनुमान: C ≈ 6 · N · D, जहां N पैरामीटर काउंट है और D प्रोसेस किए गए टोकन हैं। 6 forward pass (2x — multiply-add 2 ऑपरेशन के रूप में गिनता है) प्लस backward pass (लगभग 2x forward) से आता है। 1T टोकन पर 7B मॉडल प्रशिक्षित करना: 6 × 7×10^9 × 10^12 = 4.2×10^22 FLOPs। H100s पर 50% GPU utilization (~1000 TFLOP/s effective) पर, यह लगभग 500 GPU-hours लेता है।

FLOPs बनाम FLOP/s बनाम GPU-Hours

FLOPs (/s के बिना) कुल काम है। FLOP/s दर है। GPU-hours समय × हार्डवेयर है। वे संबंधित हैं: GPU-hours = FLOPs / (FLOP/s × utilization)। व्यवहार में, LLM प्रशिक्षण के लिए GPU utilization 30–60% है (communication, मेमोरी ऑपरेशन, और pipeline bubbles द्वारा सीमित)। इसका मतलब है कि H100 का सैद्धांतिक 2000 TFLOP/s वास्तविक उपयोगी काम के 600–1200 TFLOP/s में अनुवादित होता है। लागत इस प्रकार है: $2/GPU-hour पर, उस 7B मॉडल को प्रशिक्षित करने की लागत लगभग $1,000 है।

Inference FLOPs

प्रति टोकन Inference FLOPs ≈ 2N (एक forward pass)। 70B मॉडल: प्रति टोकन ~140 बिलियन FLOPs। 1000 TFLOP/s effective पर, यह प्रति टोकन 0.14ms है — सैद्धांतिक रूप से 7000 tokens/second। व्यवहार में, inference आमतौर पर memory-bandwidth-bound होता है (3TB/s पर 140GB weights पढ़ने में 47ms लगते हैं), compute-bound नहीं। यह memory wall है: GPU weights पढ़ने की तुलना में तेज़ गणना कर सकता है।

संबंधित अवधारणाएँ

← सभी शब्द
← Flash Attention Function Calling →