Vision Transformer : Définition et signification — Wiki IA

Une architecture Transformer appliquée aux images en découpant une image en patches de taille fixe (ex : 16×16 pixels), en traitant chaque patch comme un "token", et en traitant la séquence de patches avec l'attention standard du Transformer. ViT (Dosovitskiy et al., 2020) a montré que les Transformers pouvaient égaler ou surpasser les CNN sur les tâches d'image quand ils sont entraînés sur suffisamment de données, unifiant les architectures pour le langage et la vision.

Pourquoi c'est important

ViT a prouvé que le Transformer est une architecture universelle — pas seulement pour le texte mais aussi pour les images. Cette unification a permis l'explosion des modèles multimodaux : si les images et le texte sont tous deux des séquences de tokens traités par la même architecture, les combiner devient naturel. ViT est l'encodeur d'images dans CLIP, l'épine dorsale de DiT, et le fondement de la vision par ordinateur moderne.

En profondeur

Le processus : (1) découper une image 224×224 en 196 patches de 16×16 pixels, (2) aplatir chaque patch en un vecteur et le projeter via une couche linéaire pour créer des embeddings de patch, (3) ajouter des embeddings positionnels pour que le modèle sache où se trouve chaque patch, (4) préfixer un token [CLS] dont la représentation finale est utilisée pour la classification, (5) traiter via des couches d'encodeur Transformer standard. La sortie est une séquence de représentations de patches qui peuvent être utilisées pour la classification, la détection, ou comme features pour d'autres modèles.

ViT vs. CNN

Les CNN ont des biais inductifs intégrés : la localité (les pixels proches sont liés) et l'équivariance de translation (les patterns sont reconnus quelle que soit la position). ViT n'a ni l'un ni l'autre — il traite les patches comme un ensemble non ordonné (la position vient d'embeddings appris) et porte attention à tous les patches également. Cela rend ViT moins efficace en données que les CNN pour les petits jeux de données mais plus puissant pour les grands jeux de données, où il peut apprendre ces biais à partir des données plutôt que de les avoir codés en dur.

Au-delà de la classification

ViT a engendré une famille de Vision Transformers : DeiT (entraînement efficace en données), Swin Transformer (vision hiérarchique avec fenêtres décalées), MAE (auto-encodeur masqué pour la vision auto-supervisée), et DINO/DINOv2 (représentations visuelles auto-supervisées). Ces modèles dominent maintenant les tâches de vision : classification d'images, détection d'objets, segmentation et extraction de features. L'architecture ViT est aussi l'encodeur d'images dans la plupart des modèles multimodaux (LLaVA, GPT-4V).

Vision Transformer

Pourquoi c'est important

En profondeur

ViT vs. CNN

Au-delà de la classification

Concepts connexes