Un petit modèle brouillon génère des candidats, le grand modèle les vérifie tous en même temps. Les bonnes devinettes = plusieurs tokens par étape. Accélération de 2 à 3x avec une qualité de sortie identique.
Pourquoi c'est important
Un des rares « repas gratuits » de l'inférence IA. Sortie mathématiquement identique, juste plus rapide.
En profondeur
La vérification est moins chère que la génération (parallèle vs séquentiel). Le modèle brouillon doit être petit mais similaire. Taux d'acceptation de 70 à 85% typique. Aide surtout avec le texte prévisible.