Um encoder de 4M parâmetros em nível byte fecha a lacuna de matching de nomes entre scripts que quebra triagem de sanções

O writeup de Vedant Jumle sobre seu sistema de recuperação de nomes entre scripts é o tipo de projeto de pesquisa pequeno e focado que faz uma diferença prática real. O problema é mundano e importante: quando "Владимир Путин" está em uma fonte cirílica e a watchlist está indexada em latim, matchers fuzzy clássicos como Levenshtein, Double Metaphone e BM25 falham feio. A lacuna de desempenho entre recuperação Latim-para-Latim e Latim-para-não-Latim nesses baselines vai de 0,88 a 0,94 — significando que o sistema que sinaliza um match dentro do mesmo script perde o nome equivalente entre scripts quase completamente. Triagem de sanções, bancos de dados de imigração, matching de prontuários de hospital e pipelines de compliance financeiro vivem com esse modo de falha todo dia.

O modelo é pequeno e a arquitetura é convencional: um encoder transformer de 4 milhões de parâmetros com seis camadas e 256 dimensões ocultas, treinado com perda contrastiva InfoNCE e mineração de negativos difíceis ANCE. O truque é a entrada. Em vez de tokenização por subpalavras, que é frágil entre sistemas de escrita com estruturas estatísticas muito diferentes, o encoder lê bytes UTF-8 brutos — um alfabeto de 256 símbolos que lida com cada script nativamente. Não há pré-processamento específico de script nem tokenizador separado que precise ser retreinado quando você adiciona hebraico ou hindi. Os embeddings são normalizados unitariamente então recuperação é similaridade cosseno, o que significa que deployment é apenas um índice ANN sobre vetores pré-computados. O sistema inteiro cabe em orçamentos de memória que matchers fonéticos clássicos também cabem.

A construção dos dados de treinamento é o que torna o resultado crível. Jumle começou com 119.040 entidades de pessoas amostradas do Wikidata, passou por um pipeline de pares sintéticos de quatro estágios (variantes latinas fonéticas do Llama-3.1-8B, transliterações entre scripts em oito scripts do Qwen3-30B) e fundiu com os pares de nomes ground-truth do Wikidata para obter 4,67 milhões de pares positivos. O número de manchete é 0,775 MRR e 0,897 R@10 no geral, e crucialmente a lacuna Latim-para-não-Latim colapsa para 0,096 — uma ordem de magnitude melhor que as baselines clássicas. Árabe, russo e hebraico todos passam 0,95 R@10. Chinês (0,666) e coreano (0,728) ficam para trás, o que o writeup atribui corretamente a ambiguidade genuína de romanização em vez de falha do modelo: há múltiplas romanizações defensáveis de qualquer nome Hanzi ou Hangul dado, e a ground truth é mais esparsa.

A limitação honesta que Jumle sinaliza é que 99,5% dos dados de treinamento são gerados por LLM e sintetizados transliterando do latim para fora, não colhendo variação ortográfica em script nativo na natureza. Isso importa em produção: uma triagem de sanções real precisa matchear erros ortográficos comuns, variantes dialetais e convenções históricas de romanização que o pipeline sintético nunca viu. Os números do benchmark são reais mas a distribuição de avaliação está rio abaixo do mesmo gerador sintético, o que significa que a lacuna entre benchmark e produção é potencialmente maior do que a manchete sugere. Para desenvolvedores, a conclusão é dupla: encoders em nível byte mais aprendizado contrastivo podem rachar problemas que matching fonético clássico não pode, a arquitetura é pequena o suficiente para rodar em qualquer lugar, e o atalho de dados sintéticos é a forma certa de bootstrap quando você não tem dados multilíngues pareados — mas deployment em produção ainda quer um conjunto de avaliação real tirado da sua distribuição de dados real, não do gerador que treinou o modelo. O repo está em github.com/vedant-jumle/cross-language-phonetic-text-alignment para quem quiser fine-tunar nos próprios dados pareados.

Um encoder de 4M parâmetros em nível byte fecha a lacuna de matching de nomes entre scripts que quebra triagem de sanções

Mais notícias