Zubnet AIAprenderWiki › Modelado de lenguaje enmascarado
Entrenamiento

Modelado de lenguaje enmascarado

También conocido como: Masked Language Modeling, MLM, Tarea Cloze
Un objetivo de entrenamiento auto-supervisado donde tokens aleatorios en la entrada se reemplazan con un token [MASK], y el modelo debe predecir los tokens originales a partir del contexto. BERT popularizó MLM: enmascarar el 15% de los tokens, usar atención bidireccional para mirar tanto el contexto izquierdo como derecho, y predecir las palabras enmascaradas. Esto crea modelos potentes de comprensión de texto (a diferencia de modelos de generación de texto).

Por qué importa

MLM es el objetivo de entrenamiento que creó BERT y toda la familia de modelos codificadores que aún alimentan la mayoría de los sistemas de búsqueda, clasificación y embedding en producción. Entender MLM vs. modelado de lenguaje causal (predicción del siguiente token) explica la división fundamental entre modelos de comprensión (BERT) y modelos de generación (GPT) — y por qué cada uno destaca en diferentes tareas.

En profundidad

El proceso: tomar una secuencia de texto, seleccionar aleatoriamente el 15% de las posiciones. Para esas posiciones: el 80% se reemplaza con [MASK], el 10% se reemplaza con un token aleatorio, el 10% se mantiene sin cambios. El modelo debe predecir el token original en cada posición seleccionada. La división 80/10/10 evita que el modelo aprenda a solo prestar atención a los tokens [MASK], que no aparecen durante el uso real.

Contexto bidireccional

La ventaja clave de MLM sobre LM causal: el modelo ve tanto el contexto izquierdo como el derecho al hacer predicciones. Para la oración "El [MASK] se sentó en la alfombra", el modelo usa tanto "El" (contexto izquierdo) como "se sentó en la alfombra" (contexto derecho) para predecir "gato". Esta comprensión bidireccional es la razón por la que los modelos tipo BERT producen representaciones más ricas que los modelos de izquierda a derecha para tareas de comprensión.

MLM vs. LM causal

El dilema: MLM crea excelente comprensión (bueno para clasificación, búsqueda, NER) pero no puede generar texto de manera fluida (predecir tokens enmascarados no es lo mismo que generar una secuencia). El LM causal (predecir el siguiente token de izquierda a derecha) genera con fluidez pero comprende con menos profundidad (solo ve contexto izquierdo). Esta división impulsó la divergencia codificador-vs-decodificador en NLP. Los LLMs modernos son todos causales (solo-decodificador) porque la generación es más valiosa comercialmente, pero los modelos entrenados con MLM siguen siendo la columna vertebral de la búsqueda y la clasificación.

Conceptos relacionados

← Todos los términos