A arquitetura típica: imagens são processadas por um encoder de visão (geralmente um Vision Transformer ou variante CLIP) que converte pixels de imagem em uma sequência de tokens visuais. Esses tokens são projetados no mesmo espaço de embedding que os tokens de texto e concatenados com a entrada de texto. O modelo de linguagem então processa tanto os tokens visuais quanto os de texto juntos através de suas camadas de atenção padrão, permitindo raciocínio cross-modal.
Modelos de visão atuais se destacam em: descrever conteúdo de imagens, ler texto em imagens (OCR), entender gráficos e diagramas, identificar objetos e pessoas (quando apropriado), e raciocinar sobre relações espaciais. Eles têm dificuldade com: contagem precisa (especialmente em cenas lotadas), raciocínio espacial refinado ("A está acima ou abaixo de B?"), leitura de texto pequeno ou estilizado, e entendimento de imagens que requerem expertise de domínio (exames médicos, equipamentos especializados).
Imagens de maior resolução produzem mais tokens visuais, consumindo mais da janela de contexto e custando mais. A maioria dos provedores automaticamente redimensiona ou divide imagens em blocos para equilibrar qualidade e custo. Uma imagem típica pode produzir 500–2000 tokens. Entender isso ajuda a otimizar: não envie um screenshot 4K quando um recorte 1080p da área relevante funcionaria melhor e custaria menos.