NMT moderna usa la arquitectura Transformer encoder-decoder: el encoder procesa la oración fuente, y el decoder genera la oración objetivo token por token, atendiendo al fuente codificado mediante cross-attention. El entrenamiento requiere corpus paralelos — millones de pares de oraciones en ambos idiomas. La calidad de los datos y la coincidencia de dominio son críticas: un modelo entrenado en actas del Parlamento Europeo traduce bien texto legal pero mal el chat informal.
Los modelos de lenguaje grande se han vuelto traductores competitivos, a veces superando los sistemas MT dedicados para pares de idiomas de altos recursos. Su ventaja: entienden contexto, modismos y matices culturales mejor porque han visto lenguaje usado en contextos diversos. Su desventaja: son mucho más lentos y costosos por oración que los modelos MT dedicados. Para traducción en tiempo real de millones de oraciones, los modelos dedicados (como los detrás de Google Translate) son necesarios. Para traducción de calidad crítica en volúmenes menores, los LLMs a menudo producen resultados más naturales.
La calidad de MT varía enormemente entre pares de idiomas. Inglés-francés, inglés-español e inglés-chino están bien servidos (abundantes datos de entrenamiento). Pero para los más de 7,000 idiomas del mundo, la mayoría de los pares tienen pocos o ningún dato de entrenamiento paralelo. La traducción de bajos recursos sigue siendo un área de investigación activa, con enfoques que incluyen: traducción zero-shot a través de modelos multilingües, back-translation (usar el propio sistema MT para generar datos de entrenamiento sintéticos) y transfer learning de idiomas relacionados.