Zubnet AIAprenderWiki › Visão
Usar AI

Visão

Também conhecido como: Visão Multimodal, Compreensão de Imagens
A capacidade de um modelo de linguagem de entender e raciocinar sobre imagens junto com texto. Você envia uma foto e pergunta "o que tem nesta imagem?" ou carrega um gráfico e pede "resuma as tendências". Modelos com capacidade de visão (Claude, GPT-4V, Gemini) codificam imagens em tokens que o modelo de linguagem processa junto com tokens de texto, permitindo raciocínio unificado de texto e imagem.

Por que isso importa

A visão transforma o que LLMs podem fazer. Em vez de descrever um bug em palavras, você tira um screenshot. Em vez de digitar uma tabela, você a fotografa. Em vez de explicar um diagrama, você o compartilha. A visão torna a IA acessível para tarefas onde texto sozinho é insuficiente — que é a maioria das tarefas do mundo real. É a capacidade multimodal mais impactante para usuários do dia a dia.

Em profundidade

A arquitetura típica: imagens são processadas por um encoder de visão (geralmente um Vision Transformer ou variante CLIP) que converte pixels de imagem em uma sequência de tokens visuais. Esses tokens são projetados no mesmo espaço de embedding que os tokens de texto e concatenados com a entrada de texto. O modelo de linguagem então processa tanto os tokens visuais quanto os de texto juntos através de suas camadas de atenção padrão, permitindo raciocínio cross-modal.

O Que Modelos Conseguem (e Não Conseguem) Ver

Modelos de visão atuais se destacam em: descrever conteúdo de imagens, ler texto em imagens (OCR), entender gráficos e diagramas, identificar objetos e pessoas (quando apropriado), e raciocinar sobre relações espaciais. Eles têm dificuldade com: contagem precisa (especialmente em cenas lotadas), raciocínio espacial refinado ("A está acima ou abaixo de B?"), leitura de texto pequeno ou estilizado, e entendimento de imagens que requerem expertise de domínio (exames médicos, equipamentos especializados).

Resolução e Custo

Imagens de maior resolução produzem mais tokens visuais, consumindo mais da janela de contexto e custando mais. A maioria dos provedores automaticamente redimensiona ou divide imagens em blocos para equilibrar qualidade e custo. Uma imagem típica pode produzir 500–2000 tokens. Entender isso ajuda a otimizar: não envie um screenshot 4K quando um recorte 1080p da área relevante funcionaria melhor e custaria menos.

Conceitos relacionados

← Todos os termos
← Vision Transformer Visão computacional →