L'upscaling classique (interpolation bilinéaire, bicubique) produit des résultats lisses et flous parce qu'il moyenne les pixels voisins. Les modèles de super résolution IA (ESRGAN, Real-ESRGAN, SwinIR) apprennent à prédire à quoi devraient ressembler les détails haute fréquence (bords nets, textures, motifs fins) à partir de l'entrée basse résolution. Ils sont entraînés sur des paires d'images haute résolution et leurs versions réduites, apprenant la correspondance de basse à haute résolution.
L'upscaling IA invente nécessairement des détails qui ne sont pas dans l'image originale. Un visage flou reçoit des traits plausibles qui peuvent ne pas correspondre à la vraie personne. Du texte devient lisible mais peut contenir de mauvaises lettres. C'est acceptable pour l'amélioration artistique mais problématique pour les applications forensiques (images de surveillance, imagerie médicale) où les détails inventés pourraient être confondus avec de vraies preuves. Le résultat est convaincant mais pas fidèle.
Beaucoup de workflows de génération d'images utilisent une approche en deux étapes : générer à une résolution plus basse (plus rapide, moins cher) puis upscaler avec un modèle de super résolution. Le « hires fix » de Stable Diffusion fait exactement ça. La génération de base gère la composition et le contenu ; l'upscaler ajoute les détails fins et la netteté. C'est plus efficace que de générer directement en haute résolution, surtout pour les modèles gourmands en calcul par pixel.