Zubnet AIApprendreWiki › Décodage spéculatif
Infrastructure

Décodage spéculatif

Aussi appelé : Génération assistée
Un petit modèle brouillon génère des candidats, le grand modèle les vérifie tous en même temps. Les bonnes devinettes = plusieurs tokens par étape. Accélération de 2 à 3x avec une qualité de sortie identique.

Pourquoi c'est important

Un des rares « repas gratuits » de l'inférence IA. Sortie mathématiquement identique, juste plus rapide.

En profondeur

La vérification est moins chère que la génération (parallèle vs séquentiel). Le modèle brouillon doit être petit mais similaire. Taux d'acceptation de 70 à 85% typique. Aide surtout avec le texte prévisible.

Concepts connexes

← Tous les termes
← Cursor Date de coupure des connaissances →
ESC