DeepSeek a publie DSpark, un cadre de decodage speculatif qui permet a ses modeles DeepSeek-V4 Flash et Pro de generer du texte plus rapidement. Il est livre sous forme de points de controle ameliores, c'est-a-dire le meme modele sous-jacent avec un petit module de decodage supplementaire attache, pas un nouveau modele dote de nouvelles capacites. Le but n'est pas un systeme plus intelligent, c'est un systeme moins couteux et plus rapide.

Le decodage speculatif vaut la peine d'etre compris parce que c'est l'un des leviers les plus discrets et les plus utiles de l'economie de l'IA. Normalement, un gros modele produit du texte un jeton a la fois, chaque etape attendant la precedente, ce qui est lent. Avec le decodage speculatif, un petit modele brouillon rapide devine plusieurs jetons d'avance, et le gros modele verifie toutes ces suppositions en une seule fois. Quand les suppositions sont justes, et elles le sont souvent pour du texte ordinaire, vous obtenez la meme sortie que le gros modele aurait produite, mais en beaucoup moins d'etapes sequentielles lentes. Le resultat est une qualite identique a une vitesse superieure.

La contribution specifique de DSpark reside dans la maniere dont il fait ces suppositions. Il combine deux approches existantes: une tete parallele lourde, dans le style d'une methode appelee DFlash, avec une petite tete sequentielle qui fonctionne davantage comme la famille Eagle, en utilisant une etape Markov legere. Le melange augmente le taux d'acceptation, ce qui signifie qu'une plus grande part des jetons devines par le modele brouillon survit a la verification du gros modele, et c'est ce chiffre qui determine vraiment le gain de vitesse obtenu. Selon les propres tests de DeepSeek, DSpark bat a la fois Eagle3 et DFlash, augmentant la longueur de jetons acceptes d'environ 16 a 31 pour cent et stimulant le debit de 51 pour cent a jusqu'a 400 pour cent selon la tache, avec une latence reduite.

La manoeuvre la plus lourde de consequences est ce que DeepSeek a fait en parallele du cadre. Il a ouvert en open source DeepSpec, une base de code complete pour entrainer et evaluer les petits modeles brouillons dont depend le decodage speculatif, et surtout elle ne se limite pas aux propres modeles de DeepSeek. DeepSpec est conçu pour fonctionner aussi sur d'autres modeles ouverts, dont Gemma de Google et Qwen d'Alibaba. Cela transforme une acceleration privee en outil partage: quiconque exploite ces modeles ouverts peut entrainer un modele brouillon et capturer des gains similaires, plutot que d'attendre que chaque laboratoire livre sa propre version proprietaire.

Les bemols honnetes sont les habituels pour les revendications de performance. Les chiffres sont ceux de DeepSeek et n'ont pas ete verifies de maniere independante, et les gains du decodage speculatif varient enormement selon la charge de travail, donc le 400 pour cent en titre est un meilleur cas pour des taches favorables plutot qu'un chiffre auquel quiconque devrait s'attendre de maniere generale. Mais le fil conducteur compte plus que n'importe quel chiffre isole. L'inference, le cout d'exploitation reel d'un modele une fois qu'il existe, est la ou va la majeure partie de l'argent dans l'IA deployee, et un flux constant de techniques comme celle-ci continue de faire baisser ce cout. Ouvrir la boite a outils en open source, et la faire fonctionner sur les modeles d'autres laboratoires, repand le benefice plus largement que le seul bilan de DeepSeek. Ce sont les sorties tape-a-l'oeil qui font les gros titres, mais c'est un travail comme celui-ci qui decide discretement a quel point l'IA devient reellement abordable.