Traduction automatique : Définition et signification — Wiki IA

Traduire automatiquement du texte d'une langue à une autre. La traduction automatique neuronale (NMT) moderne utilise des Transformers encodeur-décodeur entraînés sur des corpus parallèles (textes et leurs traductions). Google Translate, DeepL et la traduction par LLM utilisent tous des variantes de cette approche. La qualité s'est améliorée de façon spectaculaire — pour les paires de langues courantes, la MT se rapproche de la traduction humaine professionnelle pour le contenu courant.

Pourquoi c'est important

La traduction automatique brise les barrières linguistiques à grande échelle. Elle permet le commerce mondial, la recherche multilingue, la communication en temps réel et l'accès à l'information à travers les langues. Pour l'IA spécifiquement, la MT est la façon dont les modèles entraînés principalement en anglais peuvent servir des utilisateurs dans plus de 100 langues — et c'est pourquoi l'efficacité des tokenizers multilingues compte pour le coût.

En profondeur

La NMT moderne utilise l'architecture Transformer encodeur-décodeur : l'encodeur traite la phrase source, et le décodeur génère la phrase cible token par token, en prêtant attention à la source encodée via l'attention croisée. L'entraînement nécessite des corpus parallèles — des millions de paires de phrases dans les deux langues. La qualité des données et la correspondance de domaine sont critiques : un modèle entraîné sur les actes du Parlement européen traduit bien le texte juridique mais mal le chat informel.

Les LLM comme traducteurs

Les grands modèles de langage sont devenus des traducteurs compétitifs, dépassant parfois les systèmes MT dédiés pour les paires de langues à ressources abondantes. Leur avantage : ils comprennent le contexte, les expressions idiomatiques et les nuances culturelles mieux parce qu'ils ont vu la langue utilisée dans des contextes divers. Leur désavantage : ils sont beaucoup plus lents et plus chers par phrase que les modèles MT dédiés. Pour la traduction en temps réel de millions de phrases, les modèles dédiés (comme ceux derrière Google Translate) sont nécessaires. Pour la traduction de haute qualité de volumes plus petits, les LLM produisent souvent des résultats plus naturels.

La longue traîne des langues

La qualité de la MT varie énormément selon les paires de langues. Anglais-français, anglais-espagnol et anglais-chinois sont bien servis (données d'entraînement abondantes). Mais pour les 7 000+ langues du monde, la plupart des paires ont peu ou pas de données parallèles d'entraînement. La traduction à faibles ressources reste un domaine de recherche actif, avec des approches incluant : la traduction zero-shot via des modèles multilingues, la rétro-traduction (utiliser le système MT lui-même pour générer des données d'entraînement synthétiques) et le transfert d'apprentissage depuis des langues apparentées.