Un encoder de 4M parámetros a nivel byte cierra la brecha de matching de nombres entre scripts que rompe el filtrado de sanciones

El writeup de Vedant Jumle sobre su sistema de recuperación de nombres entre scripts es el tipo de proyecto de investigación pequeño y enfocado que hace una mella práctica real. El problema es mundano e importante: cuando "Владимир Путин" está en una fuente cirílica y la lista de vigilancia está indexada en latín, los matchers difusos clásicos como Levenshtein, Double Metaphone y BM25 fallan mal. La brecha de desempeño entre recuperación Latín-a-Latín y Latín-a-no-Latín en estas baselines va de 0,88 a 0,94 — lo que significa que el sistema que marca un match dentro del mismo script pierde el nombre equivalente entre scripts casi por completo. El filtrado de sanciones, bases de datos de inmigración, matching de registros hospitalarios y pipelines de cumplimiento financiero viven con este modo de fallo todos los días.

El modelo es pequeño y la arquitectura convencional: un encoder transformer de 4 millones de parámetros con seis capas y 256 dimensiones ocultas, entrenado con pérdida contrastiva InfoNCE y minería de negativos difíciles ANCE. El truco es la entrada. En lugar de tokenización por subpalabras, que es frágil a través de sistemas de escritura con estructuras estadísticas muy diferentes, el encoder lee bytes UTF-8 crudos — un alfabeto de 256 símbolos que maneja cada script nativamente. No hay preprocesamiento específico al script ni un tokenizador separado que tiene que ser reentrenado cuando añades hebreo o hindi. Los embeddings están normalizados unitariamente así que la recuperación es similaridad coseno, lo que significa que el despliegue es solo un índice ANN sobre vectores precomputados. El sistema entero cabe en presupuestos de memoria en los que también caben los matchers fonéticos clásicos.

La construcción de los datos de entrenamiento es lo que hace creíble el resultado. Jumle empezó con 119.040 entidades de persona muestreadas de Wikidata, las pasó por un pipeline de pares sintéticos de cuatro etapas (variantes latinas fonéticas de Llama-3.1-8B, transliteraciones entre scripts en ocho scripts de Qwen3-30B), y fusionó con los pares de nombres ground-truth de Wikidata para obtener 4,67 millones de pares positivos. El número de titular es 0,775 MRR y 0,897 R@10 en general, y crucialmente la brecha Latín-a-no-Latín colapsa a 0,096 — un orden de magnitud mejor que las baselines clásicas. Árabe, ruso y hebreo todos pasan 0,95 R@10. Chino (0,666) y coreano (0,728) se quedan atrás, lo que el writeup atribuye correctamente a ambigüedad genuina de romanización en lugar de fallo del modelo: hay múltiples romanizaciones defendibles de cualquier nombre Hanzi o Hangul dado, y la ground truth es más escasa.

La limitación honesta que Jumle señala es que el 99,5% de los datos de entrenamiento son generados por LLM y sintetizados transliterando desde latín hacia afuera, no recolectando variantes ortográficas en script nativo en el mundo real. Eso importa en producción: un filtrado de sanciones real tiene que matchear errores ortográficos comunes, variantes dialectales y convenciones históricas de romanización que el pipeline sintético nunca vio. Los números del benchmark son reales pero la distribución de evaluación está aguas abajo del mismo generador sintético, lo que significa que la brecha entre benchmark y producción es potencialmente más grande de lo que sugiere el titular. Para desarrolladores, la conclusión es doble: encoders a nivel byte más aprendizaje contrastivo pueden romper problemas que el matching fonético clásico no puede, la arquitectura es lo suficientemente pequeña para correr en cualquier lugar, y el atajo de datos sintéticos es la forma correcta de bootstrap cuando no tienes datos multilingües apareados — pero el despliegue en producción aún quiere un set de evaluación real sacado de tu distribución de datos real, no del generador que entrenó el modelo. El repo está en github.com/vedant-jumle/cross-language-phonetic-text-alignment para quien quiera fine-tunear sobre sus propios datos apareados.

Un encoder de 4M parámetros a nivel byte cierra la brecha de matching de nombres entre scripts que rompe el filtrado de sanciones

Más noticias