छोटा draft मॉडल उम्मीदवार उत्पन्न करता है, बड़ा मॉडल एक साथ सभी को सत्यापित करता है। सही अनुमान = प्रति चरण कई टोकन। समान आउटपुट गुणवत्ता के साथ 2–3 गुना speedup।
यह क्यों मायने रखता है
AI inference में कुछ मुफ़्त लंच में से एक। गणितीय रूप से समान आउटपुट, बस तेज़।
गहन अध्ययन
सत्यापन जनरेशन से सस्ता है (parallel बनाम sequential)। Draft मॉडल छोटा लेकिन समान होना चाहिए। Acceptance rate आम तौर पर 70–85%। अनुमान योग्य टेक्स्ट के साथ सबसे अधिक सहायक।