L'architecture typique : les images sont traitées par un encodeur de vision (généralement un Vision Transformer ou un variant de CLIP) qui convertit les pixels en une séquence de tokens visuels. Ces tokens sont projetés dans le même espace d'embedding que les tokens textuels et concaténés avec l'entrée textuelle. Le modèle de langage traite ensuite les tokens visuels et textuels ensemble à travers ses couches d'attention standard, permettant le raisonnement intermodal.
Les modèles de vision actuels excellent à : décrire le contenu des images, lire le texte dans les images (OCR), comprendre les graphiques et diagrammes, identifier des objets et des personnes (quand c'est approprié), et raisonner sur les relations spatiales. Ils peinent avec : le comptage précis (surtout dans les scènes encombrées), le raisonnement spatial fin (« est-ce que A est au-dessus ou en dessous de B ? »), la lecture de texte petit ou stylisé, et la compréhension d'images nécessitant une expertise spécialisée (scans médicaux, équipements spécialisés).
Des images de plus haute résolution produisent plus de tokens visuels, consomment plus de fenêtre de contexte et coûtent plus cher. La plupart des fournisseurs redimensionnent ou découpent automatiquement les images pour équilibrer qualité et coût. Une image typique peut produire de 500 à 2000 tokens. Comprendre ça t'aide à optimiser : n'envoie pas une capture d'écran 4K quand un recadrage 1080p de la zone pertinente fonctionnerait mieux et coûterait moins cher.