La NMT moderne utilise l'architecture Transformer encodeur-décodeur : l'encodeur traite la phrase source, et le décodeur génère la phrase cible token par token, en prêtant attention à la source encodée via l'attention croisée. L'entraînement nécessite des corpus parallèles — des millions de paires de phrases dans les deux langues. La qualité des données et la correspondance de domaine sont critiques : un modèle entraîné sur les actes du Parlement européen traduit bien le texte juridique mais mal le chat informel.
Les grands modèles de langage sont devenus des traducteurs compétitifs, dépassant parfois les systèmes MT dédiés pour les paires de langues à ressources abondantes. Leur avantage : ils comprennent le contexte, les expressions idiomatiques et les nuances culturelles mieux parce qu'ils ont vu la langue utilisée dans des contextes divers. Leur désavantage : ils sont beaucoup plus lents et plus chers par phrase que les modèles MT dédiés. Pour la traduction en temps réel de millions de phrases, les modèles dédiés (comme ceux derrière Google Translate) sont nécessaires. Pour la traduction de haute qualité de volumes plus petits, les LLM produisent souvent des résultats plus naturels.
La qualité de la MT varie énormément selon les paires de langues. Anglais-français, anglais-espagnol et anglais-chinois sont bien servis (données d'entraînement abondantes). Mais pour les 7 000+ langues du monde, la plupart des paires ont peu ou pas de données parallèles d'entraînement. La traduction à faibles ressources reste un domaine de recherche actif, avec des approches incluant : la traduction zero-shot via des modèles multilingues, la rétro-traduction (utiliser le système MT lui-même pour générer des données d'entraînement synthétiques) et le transfert d'apprentissage depuis des langues apparentées.