A arquitetura tem três componentes: um text encoder (CLIP ou T5) converte o prompt em embeddings, uma U-Net (SD 1.5/SDXL) ou DiT (SD3) realiza denoising iterativo no espaço latente, e um decoder VAE converte a representação latente final em uma imagem de resolução completa. A parte "latente" é a chave: em vez de fazer denoising em uma imagem 512×512 (786K valores), faz denoising em um latente 64×64 (4K valores), tornando a geração 50x mais rápida.
A natureza aberta do SD criou um ecossistema sem precedentes. Civitai e Hugging Face hospedam milhares de modelos treinados pela comunidade e fine-tunes LoRA (estilo anime, fotorealismo, personagens específicos). Frontends WebUI (Automatic1111, ComfyUI) fornecem interfaces para fluxos de trabalho complexos de geração. ControlNet, IP-Adapter e outras extensões adicionam controle além do prompting de texto. Nenhum outro modelo de IA gerou este nível de inovação comunitária.
O SD3 substituiu a U-Net por um DiT (Diffusion Transformer) e trocou difusão por flow matching, seguindo as tendências arquiteturais mais amplas do campo. Também usa três text encoders (CLIP-L, CLIP-G, T5-XXL) para melhor compreensão de prompts. O resultado: melhor renderização de texto, composições mais coerentes e melhor aderência a prompts. Mas o tamanho maior do modelo (2B+ parâmetros) torna mais difícil rodar em hardware de consumo, criando tensão com a missão de acessibilidade do SD.