傳統升頻(雙線性、雙三次插值)會產生平滑模糊的結果,因為它對相鄰像素取平均。AI 超解析度模型(ESRGAN、Real-ESRGAN、SwinIR)學習預測低解析度輸入應有的高頻細節(銳利邊緣、紋理、精細紋樣)。它們在高解析度圖像與其降頻版本的配對上進行訓練,學習從低解析度到高解析度的映射。
AI 升頻必然會發明原始圖像中不存在的細節。模糊的人臉會獲得看似合理的特徵,但這些特徵可能與真實的人不符。文字變得可讀,但可能包含錯誤的字母。這對藝術增強來說沒問題,但對鑑識應用(監視器畫面、醫學影像)來說就有問題了,因為發明出來的細節可能被誤認為真實證據。輸出看起來令人信服,但並不忠實。
許多圖像生成工作流程採用兩階段方法:先以較低解析度生成(更快、更便宜),然後用超解析度模型升頻。Stable Diffusion 的「hires fix」就是這麼做的。基礎生成處理構圖和內容;升頻器添加精細細節和銳度。這比直接以高解析度生成更有效率,特別是對於每個像素計算量大的模型。