El proceso: tomar una secuencia de texto, seleccionar aleatoriamente el 15% de las posiciones. Para esas posiciones: el 80% se reemplaza con [MASK], el 10% se reemplaza con un token aleatorio, el 10% se mantiene sin cambios. El modelo debe predecir el token original en cada posición seleccionada. La división 80/10/10 evita que el modelo aprenda a solo prestar atención a los tokens [MASK], que no aparecen durante el uso real.
La ventaja clave de MLM sobre LM causal: el modelo ve tanto el contexto izquierdo como el derecho al hacer predicciones. Para la oración "El [MASK] se sentó en la alfombra", el modelo usa tanto "El" (contexto izquierdo) como "se sentó en la alfombra" (contexto derecho) para predecir "gato". Esta comprensión bidireccional es la razón por la que los modelos tipo BERT producen representaciones más ricas que los modelos de izquierda a derecha para tareas de comprensión.
El dilema: MLM crea excelente comprensión (bueno para clasificación, búsqueda, NER) pero no puede generar texto de manera fluida (predecir tokens enmascarados no es lo mismo que generar una secuencia). El LM causal (predecir el siguiente token de izquierda a derecha) genera con fluidez pero comprende con menos profundidad (solo ve contexto izquierdo). Esta división impulsó la divergencia codificador-vs-decodificador en NLP. Los LLMs modernos son todos causales (solo-decodificador) porque la generación es más valiosa comercialmente, pero los modelos entrenados con MLM siguen siendo la columna vertebral de la búsqueda y la clasificación.