Vision : Définition et signification — Wiki IA

La capacité d'un modèle de langage à comprendre et raisonner sur des images en même temps que du texte. Tu envoies une photo et tu demandes « qu'est-ce qu'il y a dans cette image ? » ou tu téléverses un graphique et tu demandes « résume les tendances ». Les modèles capables de vision (Claude, GPT-4V, Gemini) encodent les images en tokens que le modèle de langage traite aux côtés des tokens textuels, permettant un raisonnement unifié texte-image.

Pourquoi c'est important

La vision transforme ce que les LLM peuvent faire. Au lieu de décrire un bogue en mots, tu le captures en screenshot. Au lieu de taper un tableau, tu le photographies. Au lieu d'expliquer un diagramme, tu le partages. La vision rend l'IA accessible pour les tâches où le texte seul est insuffisant — c'est-à-dire la plupart des tâches du monde réel. C'est la capacité multimodale la plus impactante pour l'utilisateur au quotidien.

En profondeur

L'architecture typique : les images sont traitées par un encodeur de vision (généralement un Vision Transformer ou un variant de CLIP) qui convertit les pixels en une séquence de tokens visuels. Ces tokens sont projetés dans le même espace d'embedding que les tokens textuels et concaténés avec l'entrée textuelle. Le modèle de langage traite ensuite les tokens visuels et textuels ensemble à travers ses couches d'attention standard, permettant le raisonnement intermodal.

Ce que les modèles peuvent (et ne peuvent pas) voir

Les modèles de vision actuels excellent à : décrire le contenu des images, lire le texte dans les images (OCR), comprendre les graphiques et diagrammes, identifier des objets et des personnes (quand c'est approprié), et raisonner sur les relations spatiales. Ils peinent avec : le comptage précis (surtout dans les scènes encombrées), le raisonnement spatial fin (« est-ce que A est au-dessus ou en dessous de B ? »), la lecture de texte petit ou stylisé, et la compréhension d'images nécessitant une expertise spécialisée (scans médicaux, équipements spécialisés).

Résolution et coût

Des images de plus haute résolution produisent plus de tokens visuels, consomment plus de fenêtre de contexte et coûtent plus cher. La plupart des fournisseurs redimensionnent ou découpent automatiquement les images pour équilibrer qualité et coût. Une image typique peut produire de 500 à 2000 tokens. Comprendre ça t'aide à optimiser : n'envoie pas une capture d'écran 4K quand un recadrage 1080p de la zone pertinente fonctionnerait mieux et coûterait moins cher.

Vision

Pourquoi c'est important

En profondeur

Ce que les modèles peuvent (et ne peuvent pas) voir

Résolution et coût

Concepts connexes