Traducción Automática: Definición y significado — Wiki de IA

Traducir automáticamente texto de un idioma a otro. La traducción automática neuronal moderna (NMT) usa Transformers encoder-decoder entrenados en corpus paralelos (textos y sus traducciones). Google Translate, DeepL y la traducción basada en LLM usan variantes de este enfoque. La calidad ha mejorado dramáticamente — para pares de idiomas comunes, MT se acerca a la traducción humana profesional para contenido rutinario.

Por qué importa

La traducción automática rompe las barreras del idioma a escala. Permite el comercio global, la búsqueda entre idiomas, la comunicación en tiempo real y el acceso a información entre idiomas. Para la IA específicamente, MT es cómo los modelos entrenados principalmente en inglés pueden servir a usuarios en más de 100 idiomas — y es por eso que la eficiencia del tokenizador multilingüe importa para el costo.

En profundidad

NMT moderna usa la arquitectura Transformer encoder-decoder: el encoder procesa la oración fuente, y el decoder genera la oración objetivo token por token, atendiendo al fuente codificado mediante cross-attention. El entrenamiento requiere corpus paralelos — millones de pares de oraciones en ambos idiomas. La calidad de los datos y la coincidencia de dominio son críticas: un modelo entrenado en actas del Parlamento Europeo traduce bien texto legal pero mal el chat informal.

LLMs como traductores

Los modelos de lenguaje grande se han vuelto traductores competitivos, a veces superando los sistemas MT dedicados para pares de idiomas de altos recursos. Su ventaja: entienden contexto, modismos y matices culturales mejor porque han visto lenguaje usado en contextos diversos. Su desventaja: son mucho más lentos y costosos por oración que los modelos MT dedicados. Para traducción en tiempo real de millones de oraciones, los modelos dedicados (como los detrás de Google Translate) son necesarios. Para traducción de calidad crítica en volúmenes menores, los LLMs a menudo producen resultados más naturales.

La larga cola de idiomas

La calidad de MT varía enormemente entre pares de idiomas. Inglés-francés, inglés-español e inglés-chino están bien servidos (abundantes datos de entrenamiento). Pero para los más de 7,000 idiomas del mundo, la mayoría de los pares tienen pocos o ningún dato de entrenamiento paralelo. La traducción de bajos recursos sigue siendo un área de investigación activa, con enfoques que incluyen: traducción zero-shot a través de modelos multilingües, back-translation (usar el propio sistema MT para generar datos de entrenamiento sintéticos) y transfer learning de idiomas relacionados.