Multimodal : Définition et signification — Wiki IA

Un modèle capable de comprendre et/ou de générer plusieurs types de données : texte, images, audio, vidéo, code. Claude peut lire des images et du texte ; certains modèles peuvent aussi produire des images ou de la parole. « Multimodal » contraste avec les modèles « unimodaux » qui ne gèrent qu'un seul type.

Pourquoi c’est important

Les tâches du monde réel sont multimodales. Vous voulez montrer une capture d'écran à une IA et demander « qu'est-ce qui cloche ici ? » ou lui donner un diagramme et dire « implémente ça ». Les modèles multimodaux rendent cela possible.

En profondeur

L'IA multimodale fonctionne en encodant différents types de données — texte, images, audio, vidéo — dans un espace de représentation partagé où le modèle peut raisonner entre les modalités. L'approche la plus courante utilise des réseaux encodeurs distincts pour chaque modalité (un encodeur de vision pour les images, un encodeur audio pour la parole) qui transforment les entrées brutes en séquences d'embeddings, lesquelles sont ensuite injectées dans un squelette Transformer partagé aux côtés des tokens de texte. C'est ainsi que des modèles comme GPT-4o et Claude traitent les images : un encodeur de vision (souvent une variante d'un Vision Transformer, ou ViT) convertit l'image en une grille de « tokens visuels » que le modèle de langage traite exactement comme des tokens de texte.

Compréhension vs génération

Il y a une distinction importante entre compréhension multimodale et génération multimodale. La plupart des modèles de chat actuels sont multimodaux côté entrée — ils peuvent lire des images, des PDF, et parfois de l'audio — mais leur sortie reste principalement du texte. La véritable génération multimodale, où le même modèle peut produire nativement des images, de l'audio et du texte, est un problème plus difficile. Gemini de Google et GPT-4o d'OpenAI vont dans cette direction, mais beaucoup de produits « multimodaux » enchaînent en réalité des modèles spécialisés séparés en coulisses : un modèle de langage décide quelle image créer, puis transmet un prompt textuel à un modèle de diffusion comme DALL-E ou Imagen pour la générer réellement. La couture entre ces modèles a un impact sur la qualité et la cohérence.

La rapidité de l'évolution

L'évolution a été rapide. En 2022, obtenir d'une IA qu'elle décrive de manière fiable le contenu d'une image était impressionnant. Dès 2024, les modèles pouvaient lire des notes manuscrites, interpréter des graphiques complexes, comprendre des captures d'écran d'interface et suivre des instructions visuelles. Les implications pratiques sont énormes. Les développeurs utilisent des modèles multimodaux pour construire des pipelines de traitement de documents qui gèrent des PDF numérisés, des photos de tableaux blancs ou des spécifications techniques mêlant texte et diagrammes — le tout sans étapes séparées d'OCR ou de classification d'images. Dans le cas de Claude, vous pouvez coller une capture d'écran d'un message d'erreur, une photo d'un wireframe dessiné à la main ou une visualisation de données complexe, et le modèle raisonne dessus en contexte avec vos instructions textuelles.

Les limites de la vision

Une nuance qui piège les gens : « multimodal » ne veut pas dire « aussi bon dans toutes les modalités ». La plupart des LLM multimodaux restent fondamentalement des modèles de langage avec la vision greffée dessus. Leur raisonnement textuel est typiquement bien plus fort que leur compréhension visuelle. Ils peuvent se tromper en comptant les objets dans une image, avoir du mal avec les relations spatiales, ou échouer à lire du texte petit dans une capture d'écran — des tâches qui semblent trivialement faciles pour un humain. La résolution de l'encodeur de vision compte aussi : si votre image est réduite avant que le modèle ne la voie, les détails fins sont perdus peu importe l'intelligence du modèle de langage. Quand vous construisez des systèmes en production, il est payant de comprendre quelle résolution et quel budget de tokens votre modèle alloue aux images, car cela affecte directement quels détails visuels il peut et ne peut pas percevoir.

La frontière du « any-to-any »

La frontière se déplace vers ce que les chercheurs appellent les modèles « any-to-any » — des systèmes qui peuvent prendre n'importe quelle combinaison de modalités en entrée et produire n'importe quelle combinaison en sortie. Imaginez : téléverser une vidéo, obtenir un résumé textuel avec des images fixes pertinentes extraites, plus une narration audio. Ou décrire une scène en texte et obtenir une vidéo avec une musique synchronisée. On n'y est pas encore pleinement, mais la trajectoire est claire. Les modèles qui compteront le plus dans les prochaines années sont ceux qui dissolvent les frontières entre voir, entendre, lire, écrire et créer, faisant de la modalité de vos entrées et sorties un choix plutôt qu'une contrainte.

Multimodal