Vision Transformer: Definición y significado — Wiki de IA

Una arquitectura Transformer aplicada a imágenes dividiendo una imagen en parches de tamaño fijo (por ejemplo, 16×16 píxeles), tratando cada parche como un "token" y procesando la secuencia de parches con atención estándar de Transformer. ViT (Dosovitskiy et al., 2020) demostró que los Transformers podían igualar o superar a las CNN en tareas de imagen cuando se entrenan con suficientes datos, unificando las arquitecturas para lenguaje y visión.

Por qué importa

ViT demostró que el Transformer es una arquitectura universal — no solo para texto sino también para imágenes. Esta unificación permitió la explosión de modelos multimodales: si tanto imágenes como texto son secuencias de tokens procesados por la misma arquitectura, combinarlos se vuelve natural. ViT es el codificador de imágenes en CLIP, la columna vertebral de DiT y la base de la visión por computadora moderna.

En profundidad

El proceso: (1) dividir una imagen de 224×224 en 196 parches de 16×16 píxeles, (2) aplanar cada parche en un vector y proyectarlo a través de una capa lineal para crear embeddings de parche, (3) agregar embeddings posicionales para que el modelo sepa dónde está cada parche, (4) anteponer un token [CLS] cuya representación final se usa para clasificación, (5) procesar a través de capas estándar del codificador Transformer. La salida es una secuencia de representaciones de parches que se pueden usar para clasificación, detección o como características para otros modelos.

ViT vs. CNN

Las CNN tienen sesgos inductivos incorporados: localidad (los píxeles cercanos están relacionados) y equivarianza por traslación (los patrones se reconocen sin importar la posición). ViT no tiene ninguno — trata los parches como un conjunto no ordenado (la posición viene de embeddings aprendidos) y atiende a todos los parches por igual. Esto hace que ViT sea menos eficiente en datos que las CNN para datasets pequeños pero más potente para datasets grandes, donde puede aprender estos sesgos de los datos en lugar de tenerlos codificados de forma fija.

Más allá de la clasificación

ViT generó una familia de Transformers de visión: DeiT (entrenamiento eficiente en datos), Swin Transformer (visión jerárquica con ventanas desplazadas), MAE (autoencoder enmascarado para visión auto-supervisada) y DINO/DINOv2 (representaciones visuales auto-supervisadas). Estos modelos ahora dominan las tareas de visión: clasificación de imágenes, detección de objetos, segmentación y extracción de características. La arquitectura ViT también es el codificador de imágenes en la mayoría de los modelos multimodales (LLaVA, GPT-4V).

Vision Transformer

Por qué importa

En profundidad

ViT vs. CNN

Más allá de la clasificación

Conceptos relacionados