O upscaling clássico (interpolação bilinear, bicúbica) produz resultados suaves e borrados porque calcula a média dos pixels vizinhos. Modelos de super resolução com IA (ESRGAN, Real-ESRGAN, SwinIR) aprendem a prever como detalhes de alta frequência (bordas nítidas, texturas, padrões finos) devem parecer dado o input de baixa resolução. Eles são treinados em pares de imagens de alta resolução e suas versões reduzidas, aprendendo o mapeamento de baixa para alta resolução.
O upscaling com IA necessariamente inventa detalhes que não estão na imagem original. Um rosto borrado ganha features de aparência plausível que podem não corresponder à pessoa real. Texto se torna legível mas pode conter letras erradas. Isso é aceitável para aprimoramento artístico mas problemático para aplicações forenses (imagens de segurança, imagem médica) onde detalhes inventados podem ser confundidos com evidência real. A saída parece convincente mas não é fiel.
Muitos workflows de geração de imagens usam uma abordagem em duas etapas: gerar em resolução menor (mais rápido, mais barato) e depois aumentar com um modelo de super resolução. O "hires fix" do Stable Diffusion faz exatamente isso. A geração base cuida da composição e conteúdo; o upscaler adiciona detalhes finos e nitidez. Isso é mais eficiente do que gerar em alta resolução diretamente, especialmente para modelos que consomem muita computação por pixel.