Encodeur : Définition et signification — Wiki IA

Un composant de réseau de neurones qui convertit des données d'entrée en une représentation compressée et riche en information (encodage). Dans les Transformers, l'encodeur utilise l'attention bidirectionnelle pour traiter l'entrée complète et produire des représentations contextuelles. Dans les auto-encodeurs, l'encodeur compresse l'entrée en un goulot d'étranglement latent. Dans la génération d'images, l'encodeur VAE convertit les images en espace latent. Les encodeurs sont la moitié « compréhension » de nombreuses architectures.

Pourquoi c'est important

Les encodeurs sont partout : BERT est un encodeur, CLIP a un encodeur texte et un encodeur image, Stable Diffusion a un encodeur VAE, les systèmes RAG utilisent des modèles encodeurs pour les embeddings. Comprendre ce que fait un encodeur — compresser l'entrée en une représentation utile — t'aide à comprendre tous ces systèmes. La qualité de l'encodage détermine la qualité de tout ce qui suit.

En profondeur

Dans un encodeur Transformer (BERT, la moitié gauche de T5), chaque token attend à chaque autre token bidirectionnellement. Ça signifie que la représentation du mot « banque » incorpore l'information à la fois de « rivière » (contexte gauche) et de « pêche » (contexte droit) simultanément. Cette attention bidirectionnelle est la raison pour laquelle les représentations d'encodeur sont plus riches que les représentations de décodeur (gauche-à-droite uniquement) pour les tâches de compréhension.

Encodeur vs. décodeur

La distinction clé : les encodeurs traitent l'entrée (compréhension), les décodeurs génèrent la sortie (création). Les encodeurs voient tout d'un coup (bidirectionnel). Les décodeurs ne voient que les tokens passés (causal/gauche-à-droite). C'est pourquoi les modèles encodeurs (BERT) sont meilleurs pour la classification et la recherche, tandis que les modèles décodeurs (GPT, Claude) sont meilleurs pour la génération. Les modèles encodeur-décodeur (T5, BART) utilisent un encodeur pour la compréhension de l'entrée et un décodeur pour la génération de sortie, connectés par l'attention croisée.

Encodeurs dans les systèmes multimodaux

Les systèmes multimodaux utilisent typiquement des encodeurs séparés pour chaque modalité : un encodeur de vision (ViT) pour les images, un encodeur de texte (BERT/CLIP) pour le texte, et potentiellement des encodeurs audio pour la parole. Ceux-ci produisent des embeddings dans un espace partagé, permettant la compréhension inter-modale. La qualité de chaque encodeur détermine à quel point le système comprend cette modalité. C'est pourquoi l'entraînement de CLIP (aligner les encodeurs image et texte) a été si impactant — il a créé un pont entre la compréhension visuelle et linguistique.