चेन-ऑफ-थॉट प्रॉम्प्टिंग काम करता है क्योंकि भाषा मॉडल अगले टोकन प्रायोगिक होते हैं, और उनके द्वारा उत्पन्न टोकन अपने संदर्भ का हिस्सा बन जाते हैं। जब आप मॉडल से "चरण-दर-चरण सोचो" कहते हैं, तो आप किसी छिपे हुए तर्क मॉड्यूल को चालू नहीं कर रहे हैं — आप उसे अंतर्मुखी टोकन उत्पन्न करने के लिए मजबूर कर रहे हैं जो अगले टोकन के लिए सही उत्तर की ओर नियंत्रित और मार्गदर्शित करते हैं। इन अंतर्मुखी चरणों के बिना, मॉडल को प्रश्न से उत्तर तक एक बड़े अनुमान के लिए छलांग मारनी पड़ती है, और यही बिल्कुल वह जगह है जहां त्रुटियां एकत्रित हो जाती हैं। CoT के साथ, प्रत्येक चरण अगले के लिए संभावना स्पेस को संकीर्ण करता है। यह अपने सिर से 347 को 29 से गुणा करने के बीच के अंतर है जबकि कागज पर भागी उत्पाद लिखना।
गूगल पर 2022 में Wei आदि द्वारा लिखित मूल कागज दिखाता है कि CoT प्रॉम्प्टिंग बड़े मॉडलों के लिए लगभग मुफ्त है — केवल "चरण-दर-चरण सोचो" को प्रॉम्प्ट में जोड़ने से PaLM 540B पर GSM8K गणितीय सटीकता को 18% से 57% तक बढ़ा दिया गया। लेकिन इस तकनीक के छोटे मॉडलों के लिए लगभग कोई मदद नहीं होती, जिसके कारण एक व्यावहारिक नियम हो गया: CoT लगभग 10 अरब पैरामीटर से ऊपर के मॉडलों के लिए सबसे उपयोगी है। उस बिंदु के नीचे, मॉडल अक्सर संभावित लेकिन गलत तर्क चरण उत्पन्न करता है, जो एक उत्तर के बिना छलांग लगाने से अधिक नुकसानदायक हो सकता है। यदि आप उत्पादन में अलग-अलग आकार के मॉडलों के बीच नौकरी बंटा रहते हैं, तो यह याद रखना महत्वपूर्ण है।
आधुनिक फ्रंटियर मॉडल — क्लॉड, GPT-4, जेमिनी — ट्रेनिंग के दौरान चेन-ऑफ-थॉट को अंतर्निहित कर चुके हैं। एंथ्रोपिक और ओपनएआई दोनों प्रक्रिया पुरस्कार मॉडल और बूस्टर शिक्षा के विचारों के उपयोग करते हैं जिससे मॉडल उत्तर देने से पहले समस्याओं के तर्क के माध्यम से प्रशिक्षित किए जाते हैं, यहां तक कि आप उन्हें विशेष रूप से अनुरोध न करें। ओपनएआई के o1 और o3 मॉडल इसे सबसे आगे ले जाते हैं, जिनके द्वारा आप "सोच" ट्रेस में देख सकते हैं। क्लॉड के विस्तृत सोच इसी तरह काम करता है। व्यावहारिक परिणाम यह है कि अग्रणी मॉडलों के लिए, 2023 में तुलना में विशिष्ट CoT प्रॉम्प्टिंग कम महत्वपूर्ण हो गई है, लेकिन यह तब भी मदद करता है जब आप तर्क की जांच करना चाहते हैं, त्रुटियों को पकड़ना चाहते हैं या जब आप छोटे या ओपन-सोर्स मॉडलों के साथ काम कर रहे हैं जिन्हें इस प्रशिक्षण के बिना नहीं लिया गया है।
एक आम भ्रम यह है कि चेन-ऑफ-थॉट हमेशा लंबे, धीमे उत्तर का मतलब होता है। वास्तव में, आप CoT को संरचित आउटपुट के साथ जोड़ सकते हैं — मॉडल से एक स्क्रैचपैड अनुभाग में तर्क करने के लिए कहें, फिर एक संक्षिप्त अंतिम उत्तर उत्पन्न करें। कई API उपयोगकर्ता तर्क को अलग फील्ड में रखते हैं या XML टैग का उपयोग करते हैं ताकि विचार और उत्तर के बीच अंतर स्पष्ट हो सके। यह आपको सटीकता के लाभ देता है बिना अपने अंतिम उपयोगकर्ताओं को तर्क के अनुच्छेदों के माध्यम से गुजरने के लिए मजबूर नहीं करता। एक और बात: CoT वास्तव में सरल कार्यों पर म