BERT: Definición y significado — Wiki de IA

Un modelo basado en Transformer de Google (2018) que revolucionó el NLP al introducir pre-entrenamiento bidireccional — cada token puede atender a todos los demás tokens, dando al modelo una comprensión contextual profunda. BERT es un modelo solo-encoder: destaca en la comprensión de texto (clasificación, búsqueda, NER) pero no puede generar texto como GPT o Claude.

Por qué importa

BERT es el paper de NLP más influyente de la era moderna. Demostró que pre-entrenar con texto sin etiquetar y luego hacer fine-tuning en tareas específicas podía aplastar cada benchmark existente. Aunque los LLMs han robado los reflectores, los modelos tipo BERT siguen impulsando la mayoría de los motores de búsqueda en producción, sistemas de embeddings y pipelines de clasificación porque son más pequeños, rápidos y baratos que los LLMs para tareas no generativas.

En profundidad

El entrenamiento de BERT usa dos objetivos: Modelado de Lenguaje Enmascarado (MLM) — enmascarar aleatoriamente el 15% de los tokens y predecirlos a partir del contexto — y Predicción de Siguiente Oración (NSP) — predecir si dos oraciones son consecutivas. El MLM fuerza la comprensión bidireccional porque el modelo debe usar tanto el contexto izquierdo como el derecho para predecir las palabras enmascaradas. Esto es fundamentalmente diferente del enfoque de izquierda a derecha de GPT.

Por qué BERT sigue importando

En la era de los LLMs, los modelos de la familia BERT (RoBERTa, DeBERTa, DistilBERT) siguen siendo la columna vertebral del NLP en producción. Son 100x más pequeños que los LLMs (110M–340M parámetros vs. miles de millones), 10x más rápidos para inferencia, y frecuentemente mejores para tareas que no requieren generación. La mayoría de los modelos de embeddings usados en RAG y búsqueda semántica son descendientes de BERT. Google Search usó BERT extensivamente antes de transicionar a modelos más grandes.

BERT vs. GPT: La División Arquitectónica

BERT (solo-encoder, bidireccional) y GPT (solo-decoder, de izquierda a derecha) representan dos filosofías. BERT ve toda la entrada a la vez — perfecto para comprender. GPT solo ve lo que vino antes — perfecto para generar. El campo inicialmente pensó que encoder-decoder (T5) ganaría al combinar ambos. En cambio, solo-decoder (enfoque GPT) ganó para los LLMs porque escala de forma más limpia, y puedes aproximar la comprensión bidireccional mediante prompting inteligente.

BERT

Por qué importa

En profundidad

Por qué BERT sigue importando

BERT vs. GPT: La División Arquitectónica

Conceptos relacionados