BERT : Définition et signification — Wiki IA

Un modèle basé sur le Transformer de Google (2018) qui a révolutionné le NLP en introduisant le pré-entraînement bidirectionnel — chaque token peut porter attention à tous les autres tokens, donnant au modèle une compréhension contextuelle profonde. BERT est un modèle encodeur seulement : il excelle à comprendre le texte (classification, recherche, NER) mais ne peut pas générer du texte comme GPT ou Claude.

Pourquoi c'est important

BERT est l'article de NLP le plus influent de l'ère moderne. Il a prouvé que le pré-entraînement sur du texte non étiqueté suivi d'un ajustement fin sur des tâches spécifiques pouvait écraser tous les benchmarks existants. Même si les LLM ont volé la vedette, les modèles de type BERT alimentent encore la plupart des moteurs de recherche, systèmes d'embeddings et pipelines de classification en production parce qu'ils sont plus petits, plus rapides et moins chers que les LLM pour les tâches non génératives.

En profondeur

L'entraînement de BERT utilise deux objectifs : le Masked Language Modeling (MLM) — masquer aléatoirement 15 % des tokens et les prédire à partir du contexte — et le Next Sentence Prediction (NSP) — prédire si deux phrases sont consécutives. Le MLM force la compréhension bidirectionnelle parce que le modèle doit utiliser le contexte gauche et droit pour prédire les mots masqués. C'est fondamentalement différent de l'approche gauche-à-droite de GPT.

Pourquoi BERT compte encore

À l'ère des LLM, les modèles de la famille BERT (RoBERTa, DeBERTa, DistilBERT) restent la colonne vertébrale du NLP en production. Ils sont 100x plus petits que les LLM (110M–340M paramètres vs. des milliards), 10x plus rapides en inférence, et souvent meilleurs pour les tâches qui ne nécessitent pas de génération. La plupart des modèles d'embeddings utilisés en RAG et recherche sémantique sont des descendants de BERT. Google Search utilisait BERT de manière extensive avant de transitionner vers des modèles plus grands.

BERT vs. GPT : le schisme architectural

BERT (encodeur seulement, bidirectionnel) et GPT (décodeur seulement, gauche-à-droite) représentent deux philosophies. BERT voit toute l'entrée d'un coup — parfait pour comprendre. GPT ne voit que ce qui est venu avant — parfait pour générer. Le domaine pensait initialement que l'encodeur-décodeur (T5) gagnerait en combinant les deux. À la place, le décodeur seul (approche GPT) a gagné pour les LLM parce qu'il passe mieux à l'échelle, et on peut approximer la compréhension bidirectionnelle avec du prompting astucieux.

BERT

Pourquoi c'est important

En profondeur

Pourquoi BERT compte encore

BERT vs. GPT : le schisme architectural

Concepts connexes