Vision Transformer: Definition & Meaning — AI Wiki

Une architecture Transformer appliquée aux images en divisant une image en patches de taille fixe (ex. 16×16 pixels), en traitant chaque patch comme un « token » et en traitant la séquence de patches avec l'attention standard du Transformer. ViT (Dosovitskiy et al., 2020) a montré que les Transformers pouvaient égaler ou dépasser les CNN sur les tâches d'images quand ils sont entraînés sur suffisamment de données, unifiant les architectures pour le langage et la vision.

Pourquoi c'est important

ViT a prouvé que le Transformer est une architecture universelle — pas juste pour le texte mais pour les images aussi. Cette unification a permis l'explosion des modèles multimodaux : si les images et le texte sont tous les deux des séquences de tokens traitées par la même architecture, les combiner devient naturel. ViT est l'encoder d'images dans CLIP, la colonne vertébrale de DiT, et le fondement de la vision par ordinateur moderne.

Deep Dive

The process: (1) split a 224×224 image into 196 patches of 16×16 pixels, (2) flatten each patch into a vector and project it through a linear layer to create patch embeddings, (3) add positional embeddings so the model knows where each patch is, (4) prepend a [CLS] token whose final representation is used for classification, (5) process through standard Transformer encoder layers. The output is a sequence of patch representations that can be used for classification, detection, or as features for other models.

ViT vs. CNN

CNNs have built-in inductive biases: locality (nearby pixels are related) and translation equivariance (patterns are recognized regardless of position). ViT has neither — it treats patches as an unordered set (position comes from learned embeddings) and attends to all patches equally. This makes ViT less data-efficient than CNNs for small datasets but more powerful for large datasets, where it can learn these biases from data rather than having them hard-coded.

Beyond Classification

ViT spawned a family of vision Transformers: DeiT (data-efficient training), Swin Transformer (hierarchical vision with shifted windows), MAE (masked autoencoder for self-supervised vision), and DINO/DINOv2 (self-supervised visual representations). These models now dominate vision tasks: image classification, object detection, segmentation, and feature extraction. The ViT architecture is also the image encoder in most multimodal models (LLaVA, GPT-4V).

Vision Transformer

Pourquoi c'est important

Deep Dive

ViT vs. CNN

Beyond Classification

Concepts liés