Zubnet AIसीखेंWiki › टेस्ट-टाइम कम्प्यूट
मूल तत्व

टेस्ट-टाइम कम्प्यूट

इसे भी कहा जाता है: Inference-Time Compute, Chain of Thought, सोचने के टोकन
Inference (जब मॉडल प्रतिक्रिया उत्पन्न कर रहा हो) के दौरान उत्तर गुणवत्ता सुधारने के लिए अतिरिक्त गणना का उपयोग। तुरंत उत्तर उत्पन्न करने के बजाय, मॉडल लंबे समय तक "सोचता" है — तर्क टोकन उत्पन्न करता है, कई दृष्टिकोणों का पता लगाता है, या अपने आउटपुट को सत्यापित करता है। टेस्ट टाइम पर अधिक कम्प्यूट बेहतर उत्तर देता है, विशेषकर जटिल तर्क कार्यों के लिए।

यह क्यों मायने रखता है

टेस्ट-टाइम कम्प्यूट नवीनतम स्केलिंग प्रतिमान है। पहले युग ने प्रशिक्षण कम्प्यूट को स्केल किया (बड़े मॉडल, अधिक डेटा)। वर्तमान युग inference कम्प्यूट को भी स्केल करता है (प्रति प्रश्न अधिक सोच)। o1 और extended thinking वाले Claude जैसे मॉडल दिखाते हैं कि मॉडल को 30 सेकंड तक तर्क करने देना अक्सर 2 सेकंड में उत्तर देने वाले मॉडल से बेहतर प्रदर्शन करता है, भले ही तेज़ मॉडल तकनीकी रूप से बड़ा हो। यह अर्थशास्त्र बदलता है: गुणवत्ता इस बात का कार्य बन जाती है कि आप प्रति क्वेरी कितना खर्च करने को तैयार हैं।

गहन अध्ययन

टेस्ट-टाइम कम्प्यूट का सबसे सरल रूप chain-of-thought है: मॉडल अंतिम उत्तर से पहले तर्क चरण उत्पन्न करता है। अधिक परिष्कृत दृष्टिकोणों में शामिल हैं: tree-of-thought (कई तर्क पथों का अन्वेषण और सबसे अच्छे का चयन), self-consistency (कई उत्तर उत्पन्न करना और मतदान), और iterative refinement (मॉडल अपने आउटपुट की आलोचना और संशोधन करता है)। प्रत्येक दृष्टिकोण अधिक टोकन (= अधिक कम्प्यूट = अधिक लागत) उपयोग करता है लेकिन बेहतर परिणाम उत्पन्न करता है।

Extended Thinking

o1 (OpenAI) और extended thinking वाले Claude जैसे मॉडल आंतरिक तर्क टोकन उत्पन्न करते हैं जो उपयोगकर्ता को नहीं दिखते। ये "thinking tokens" मॉडल को जटिल समस्याओं को विघटित करने, अपने काम की जाँच करने, किनारे के मामलों पर विचार करने, और अपने दृष्टिकोण को संशोधित करने देते हैं — दृश्यमान प्रतिक्रिया उत्पन्न करने से पहले। लागत अधिक है (आप thinking tokens के लिए भुगतान करते हैं) और विलंबता लंबी है, लेकिन गणित, कोडिंग, और तर्क कार्यों पर सटीकता नाटकीय रूप से सुधरती है।

Inference के लिए स्केलिंग कानून

शोध सुझाव देता है कि टेस्ट-टाइम कम्प्यूट अपने स्वयं के स्केलिंग कानूनों का पालन करता है: inference कम्प्यूट (सोचने का समय) को दोगुना करने से सटीकता में अनुमानित सुधार होता है, उसी तरह जैसे प्रशिक्षण कम्प्यूट को दोगुना करने से प्री-ट्रेनिंग loss में सुधार होता है। इसका अर्थ है कि आप प्रति क्वेरी अपना गुणवत्ता-लागत ट्रेड-ऑफ़ चुन सकते हैं: सरल प्रश्नों को तेज़, सस्ते उत्तर मिलते हैं; जटिल प्रश्नों को लंबा, अधिक महंगा तर्क मिलता है। यह गतिशील आवंटन प्रत्येक क्वेरी के लिए समान कम्प्यूट उपयोग करने से अधिक कुशल है।

संबंधित अवधारणाएँ

← सभी शब्द
← टेक्स्ट-टू-स्पीच टोकन →
ESC