Visión: Definición y significado — Wiki de IA

La capacidad de un modelo de lenguaje para comprender y razonar sobre imágenes junto con texto. Envías una foto y preguntas "¿qué hay en esta imagen?" o subes un gráfico y pides "resume las tendencias". Los modelos con visión (Claude, GPT-4V, Gemini) codifican las imágenes en tokens que el modelo de lenguaje procesa junto con los tokens de texto, permitiendo razonamiento unificado de texto e imagen.

Por qué importa

La visión transforma lo que los LLMs pueden hacer. En lugar de describir un bug con palabras, lo capturas en pantalla. En lugar de escribir una tabla, la fotografías. En lugar de explicar un diagrama, lo compartes. La visión hace que la IA sea accesible para tareas donde solo el texto es insuficiente — que son la mayoría de las tareas del mundo real. Es la capacidad multimodal más impactante para los usuarios cotidianos.

En profundidad

La arquitectura típica: las imágenes son procesadas por un codificador de visión (generalmente un Vision Transformer o una variante de CLIP) que convierte los píxeles de la imagen en una secuencia de tokens visuales. Estos tokens se proyectan al mismo espacio de embeddings que los tokens de texto y se concatenan con la entrada de texto. El modelo de lenguaje entonces procesa tanto los tokens visuales como los de texto a través de sus capas de atención estándar, permitiendo el razonamiento cross-modal.

Lo que los modelos pueden (y no pueden) ver

Los modelos de visión actuales destacan en: describir contenido de imágenes, leer texto en imágenes (OCR), entender gráficos y diagramas, identificar objetos y personas (cuando es apropiado) y razonar sobre relaciones espaciales. Tienen dificultades con: el conteo preciso (especialmente en escenas con muchos elementos), el razonamiento espacial fino ("¿A está arriba o abajo de B?"), leer texto pequeño o estilizado, y entender imágenes que requieren experiencia de dominio (escaneos médicos, equipos especializados).

Resolución y costo

Las imágenes de mayor resolución producen más tokens visuales, consumiendo más ventana de contexto y costando más. La mayoría de los proveedores redimensionan o dividen automáticamente las imágenes para equilibrar calidad y costo. Una imagen típica podría producir entre 500 y 2000 tokens. Entender esto te ayuda a optimizar: no envíes una captura de pantalla en 4K cuando un recorte de 1080p del área relevante funcionaría mejor y costaría menos.

Visión

Por qué importa

En profundidad

Lo que los modelos pueden (y no pueden) ver

Resolución y costo

Conceptos relacionados