O treinamento do BERT usa dois objetivos: Masked Language Modeling (MLM) — mascara aleatoriamente 15% dos tokens e os prediz a partir do contexto — e Next Sentence Prediction (NSP) — prediz se duas sentenças são consecutivas. O MLM força a compreensão bidirecional porque o modelo deve usar tanto o contexto da esquerda quanto da direita para predizer as palavras mascaradas. Isso é fundamentalmente diferente da abordagem da esquerda para a direita do GPT.
Na era dos LLMs, modelos da família BERT (RoBERTa, DeBERTa, DistilBERT) continuam sendo a espinha dorsal do NLP em produção. Eles são 100x menores que LLMs (110M–340M parâmetros vs. bilhões), 10x mais rápidos para inferência e frequentemente melhores para tarefas que não exigem geração. A maioria dos modelos de embedding usados em RAG e busca semântica são descendentes do BERT. O Google Search usou o BERT extensivamente antes de transicionar para modelos maiores.
BERT (encoder-only, bidirecional) e GPT (decoder-only, esquerda para direita) representam duas filosofias. BERT vê toda a entrada de uma vez — perfeito para compreensão. GPT vê apenas o que veio antes — perfeito para geração. O campo inicialmente pensou que encoder-decoder (T5) venceria combinando ambos. Em vez disso, decoder-only (abordagem GPT) venceu para LLMs porque escala de forma mais limpa, e você pode aproximar a compreensão bidirecional através de prompting inteligente.