टेस्ट-टाइम कम्प्यूट का सबसे सरल रूप chain-of-thought है: मॉडल अंतिम उत्तर से पहले तर्क चरण उत्पन्न करता है। अधिक परिष्कृत दृष्टिकोणों में शामिल हैं: tree-of-thought (कई तर्क पथों का अन्वेषण और सबसे अच्छे का चयन), self-consistency (कई उत्तर उत्पन्न करना और मतदान), और iterative refinement (मॉडल अपने आउटपुट की आलोचना और संशोधन करता है)। प्रत्येक दृष्टिकोण अधिक टोकन (= अधिक कम्प्यूट = अधिक लागत) उपयोग करता है लेकिन बेहतर परिणाम उत्पन्न करता है।
o1 (OpenAI) और extended thinking वाले Claude जैसे मॉडल आंतरिक तर्क टोकन उत्पन्न करते हैं जो उपयोगकर्ता को नहीं दिखते। ये "thinking tokens" मॉडल को जटिल समस्याओं को विघटित करने, अपने काम की जाँच करने, किनारे के मामलों पर विचार करने, और अपने दृष्टिकोण को संशोधित करने देते हैं — दृश्यमान प्रतिक्रिया उत्पन्न करने से पहले। लागत अधिक है (आप thinking tokens के लिए भुगतान करते हैं) और विलंबता लंबी है, लेकिन गणित, कोडिंग, और तर्क कार्यों पर सटीकता नाटकीय रूप से सुधरती है।
शोध सुझाव देता है कि टेस्ट-टाइम कम्प्यूट अपने स्वयं के स्केलिंग कानूनों का पालन करता है: inference कम्प्यूट (सोचने का समय) को दोगुना करने से सटीकता में अनुमानित सुधार होता है, उसी तरह जैसे प्रशिक्षण कम्प्यूट को दोगुना करने से प्री-ट्रेनिंग loss में सुधार होता है। इसका अर्थ है कि आप प्रति क्वेरी अपना गुणवत्ता-लागत ट्रेड-ऑफ़ चुन सकते हैं: सरल प्रश्नों को तेज़, सस्ते उत्तर मिलते हैं; जटिल प्रश्नों को लंबा, अधिक महंगा तर्क मिलता है। यह गतिशील आवंटन प्रत्येक क्वेरी के लिए समान कम्प्यूट उपयोग करने से अधिक कुशल है।