Power-law संबंध जो दिखाते हैं कि प्रदर्शन मॉडल आकार, डेटासेट आकार और compute के साथ अनुमानित रूप से सुधरता है। आप करोड़ों खर्च करने से पहले प्रदर्शन का अनुमान लगा सकते हैं।
यह क्यों मायने रखता है
प्रशिक्षण को अनुमान से इंजीनियरिंग में बदल दिया। AI हथियारों की दौड़ की व्याख्या करता है: compute पर अनुमानित रिटर्न लगातार बड़े clusters को प्रेरित करता है।
गहन अध्ययन
Kaplan et al. (2020, OpenAI): loss, power law के रूप में घटता है। Chinchilla (Hoffmann et al., 2022): अधिकांश मॉडल अंडरट्रेंड थे — optimal अनुपात ~20 टोकन प्रति parameter। जहाँ वे टूटते हैं: विशिष्ट क्षमताओं की भविष्यवाणी नहीं करते या डेटा गुणवत्ता का हिसाब नहीं रखते।