La arquitectura típica: las imágenes son procesadas por un codificador de visión (generalmente un Vision Transformer o una variante de CLIP) que convierte los píxeles de la imagen en una secuencia de tokens visuales. Estos tokens se proyectan al mismo espacio de embeddings que los tokens de texto y se concatenan con la entrada de texto. El modelo de lenguaje entonces procesa tanto los tokens visuales como los de texto a través de sus capas de atención estándar, permitiendo el razonamiento cross-modal.
Los modelos de visión actuales destacan en: describir contenido de imágenes, leer texto en imágenes (OCR), entender gráficos y diagramas, identificar objetos y personas (cuando es apropiado) y razonar sobre relaciones espaciales. Tienen dificultades con: el conteo preciso (especialmente en escenas con muchos elementos), el razonamiento espacial fino ("¿A está arriba o abajo de B?"), leer texto pequeño o estilizado, y entender imágenes que requieren experiencia de dominio (escaneos médicos, equipos especializados).
Las imágenes de mayor resolución producen más tokens visuales, consumiendo más ventana de contexto y costando más. La mayoría de los proveedores redimensionan o dividen automáticamente las imágenes para equilibrar calidad y costo. Una imagen típica podría producir entre 500 y 2000 tokens. Entender esto te ayuda a optimizar: no envíes una captura de pantalla en 4K cuando un recorte de 1080p del área relevante funcionaría mejor y costaría menos.