NMT moderna usa a arquitetura Transformer encoder-decoder: o encoder processa a frase de origem, e o decoder gera a frase de destino token por token, atendendo à fonte codificada através de cross-attention. O treinamento requer corpora paralelos — milhões de pares de frases em ambos os idiomas. A qualidade e adequação ao domínio dos dados são críticas: um modelo treinado em procedimentos do Parlamento Europeu traduz texto legal bem, mas conversa informal mal.
Modelos de linguagem grandes se tornaram tradutores competitivos, às vezes superando sistemas de MT dedicados para pares de idiomas com muitos recursos. Sua vantagem: entendem contexto, expressões idiomáticas e nuances culturais melhor porque viram a linguagem usada em contextos diversos. Sua desvantagem: são muito mais lentos e caros por frase do que modelos de MT dedicados. Para tradução em tempo real de milhões de frases, modelos dedicados (como os por trás do Google Translate) são necessários. Para tradução de qualidade crítica em volumes menores, LLMs frequentemente produzem resultados mais naturais.
A qualidade da MT varia enormemente entre pares de idiomas. Inglês-francês, inglês-espanhol e inglês-chinês são bem atendidos (dados de treinamento abundantes). Mas para os mais de 7.000 idiomas do mundo, a maioria dos pares tem pouco ou nenhum dado de treinamento paralelo. A tradução de baixo recurso permanece uma área de pesquisa ativa, com abordagens incluindo: tradução zero-shot através de modelos multilíngues, back-translation (usar o próprio sistema de MT para gerar dados de treinamento sintéticos) e transfer learning de idiomas relacionados.