El entrenamiento de BERT usa dos objetivos: Modelado de Lenguaje Enmascarado (MLM) — enmascarar aleatoriamente el 15% de los tokens y predecirlos a partir del contexto — y Predicción de Siguiente Oración (NSP) — predecir si dos oraciones son consecutivas. El MLM fuerza la comprensión bidireccional porque el modelo debe usar tanto el contexto izquierdo como el derecho para predecir las palabras enmascaradas. Esto es fundamentalmente diferente del enfoque de izquierda a derecha de GPT.
En la era de los LLMs, los modelos de la familia BERT (RoBERTa, DeBERTa, DistilBERT) siguen siendo la columna vertebral del NLP en producción. Son 100x más pequeños que los LLMs (110M–340M parámetros vs. miles de millones), 10x más rápidos para inferencia, y frecuentemente mejores para tareas que no requieren generación. La mayoría de los modelos de embeddings usados en RAG y búsqueda semántica son descendientes de BERT. Google Search usó BERT extensivamente antes de transicionar a modelos más grandes.
BERT (solo-encoder, bidireccional) y GPT (solo-decoder, de izquierda a derecha) representan dos filosofías. BERT ve toda la entrada a la vez — perfecto para comprender. GPT solo ve lo que vino antes — perfecto para generar. El campo inicialmente pensó que encoder-decoder (T5) ganaría al combinar ambos. En cambio, solo-decoder (enfoque GPT) ganó para los LLMs porque escala de forma más limpia, y puedes aproximar la comprensión bidireccional mediante prompting inteligente.