Detección de Idioma: Definición y significado — Wiki de IA

Identificar automáticamente en qué idioma está escrito un texto. "Bonjour le monde" → Francés. "こんにちは世界" → Japonés. Los modelos modernos pueden distinguir más de 100 idiomas con solo unas pocas palabras, manejar texto en varios idiomas (cambio de código) e identificar idiomas estrechamente relacionados (noruego vs. danés, malayo vs. indonesio).

Por qué importa

La detección de idioma es el primer paso esencial en cualquier pipeline multilingüe: necesitas saber en qué idioma está la entrada antes de poder traducirla, enrutarla al modelo correcto o aplicar procesamiento específico del idioma. Se usa en motores de búsqueda, enrutamiento de soporte al cliente, moderación de contenido y todo sistema que maneja texto de usuarios de todo el mundo.

En profundidad

Los enfoques simples usan estadísticas de n-gramas de caracteres: cada idioma tiene patrones de caracteres distintivos ("th" es común en inglés, "tion" en francés, "ung" en alemán). El modelo de identificación de idiomas de FastText usa n-gramas de caracteres con una red neuronal superficial y puede identificar 176 idiomas con alta precisión a partir de tan solo una oración. Para texto muy corto (pocas palabras), la precisión baja porque no hay suficiente señal.

Casos difíciles

Algunos pares de idiomas son extremadamente difíciles de distinguir: serbio (cirílico) vs. serbio (latino) vs. croata vs. bosnio comparten la mayoría del vocabulario y gramática. Chino simplificado vs. tradicional requiere examinar elecciones específicas de caracteres. Texto corto ambiguo como "no" podría ser inglés, español, italiano o portugués. El texto con cambio de código ("I went to the tienda to buy leche") mezcla idiomas dentro de una oración. Los sistemas robustos manejan estos casos límite mediante puntuaciones de confianza estadística en lugar de clasificación dura.

En la práctica

Para la mayoría de aplicaciones, CLD3 de Google, lid.176.bin de FastText o la biblioteca langdetect de Python proporcionan precisión suficiente. Los LLMs también pueden detectar idiomas como efecto secundario de su entrenamiento, aunque usar un modelo de 70B para detección de idiomas es como usar una motosierra para cortar mantequilla. La arquitectura práctica: detección rápida de idioma primero (FastText, <1ms), luego enrutamiento a procesamiento específico del idioma.