Zubnet AIAprenderWiki › BERT
Models

BERT

Bidirectional Encoder Representations from Transformers
Un modelo basado en Transformer de Google (2018) que revolucionó el NLP al introducir pre-entrenamiento bidireccional — cada token puede atender a cada otro token, dando al modelo comprensión contextual profunda. BERT es un modelo encoder-only: destaca en entender texto (clasificación, búsqueda, NER) pero no puede generar texto como GPT o Claude.

Por qué importa

BERT es el paper NLP más influyente de la era moderna. Probó que pre-entrenar en texto no etiquetado y luego hacer fine-tuning en tareas específicas podía aplastar cada benchmark existente. Aunque los LLMs se han robado el foco, los modelos estilo BERT siguen potenciando la mayoría de motores de búsqueda, sistemas de embedding y pipelines de clasificación en producción porque son más pequeños, rápidos y baratos que los LLMs para tareas no-generativas.

Deep Dive

BERT's training uses two objectives: Masked Language Modeling (MLM) — randomly mask 15% of tokens and predict them from context — and Next Sentence Prediction (NSP) — predict whether two sentences are consecutive. MLM forces bidirectional understanding because the model must use both left and right context to predict masked words. This is fundamentally different from GPT's left-to-right approach.

Why BERT Still Matters

In the LLM era, BERT-family models (RoBERTa, DeBERTa, DistilBERT) remain the backbone of production NLP. They're 100x smaller than LLMs (110M–340M parameters vs. billions), 10x faster for inference, and often better for tasks that don't require generation. Most embedding models used in RAG and semantic search are BERT descendants. Google Search used BERT extensively before transitioning to larger models.

BERT vs. GPT: The Architecture Split

BERT (encoder-only, bidirectional) and GPT (decoder-only, left-to-right) represent two philosophies. BERT sees the whole input at once — perfect for understanding. GPT sees only what came before — perfect for generating. The field initially thought encoder-decoder (T5) would win by combining both. Instead, decoder-only (GPT approach) won for LLMs because it scales more cleanly, and you can approximate bidirectional understanding through clever prompting.

Conceptos relacionados

← Todos los términos
← Benchmark Bias →