Grand modèle de langage : Définition et signification — Wiki IA

Un réseau de neurones entraîné sur d'énormes quantités de texte pour comprendre et générer du langage humain. « Large » fait référence au nombre de paramètres (des milliards) et à la taille des données d'entraînement (des milliers de milliards de tokens). Claude, GPT, Gemini, Llama et Mistral sont tous des LLM.

Pourquoi c’est important

Les LLM sont la technologie derrière chaque chat IA, assistant de code et générateur de texte que vous utilisez. Comprendre ce qu'ils sont (des appariements statistiques de patterns, pas des êtres sentients) vous aide à les utiliser efficacement et à reconnaître leurs limites.

En profondeur

À la base, un LLM est une fonction qui prend une séquence de tokens et produit une distribution de probabilité sur le prochain token. C'est tout le truc. Pendant l'entraînement, le modèle voit des milliers de milliards de tokens de texte et ajuste ses milliards de paramètres pour devenir meilleur à prédire ce qui vient ensuite. Quand vous discutez avec Claude ou GPT, le modèle génère un token à la fois, réinjectant à chaque fois sa propre sortie précédente comme entrée. Ce processus autorégressif est la raison pour laquelle vous voyez les réponses arriver mot par mot — le modèle ne sait véritablement pas ce qu'il va dire ensuite tant qu'il n'y est pas arrivé.

Le squelette Transformer

La plupart des LLM modernes reposent sur l'architecture Transformer, introduite par des chercheurs de Google en 2017. L'innovation clé du Transformer est le mécanisme d'attention, qui permet au modèle d'examiner chaque autre token de l'entrée pour déterminer ce qu'un token donné signifie. Cela résout un problème qui affligeait les architectures précédentes (RNN, LSTM) : elles avaient du mal avec les dépendances à longue portée parce que l'information devait circuler séquentiellement à travers chaque étape intermédiaire. L'attention permet à un modèle de relier directement « il » au paragraphe cinq à « le serveur de base de données » au paragraphe un, peu importe la quantité de texte entre les deux. Certaines architectures plus récentes comme Mamba utilisent des state-space models au lieu de l'attention, troquant une certaine flexibilité contre une bien meilleure efficacité sur les longues séquences, mais les Transformers restent le paradigme dominant pour les plus grands modèles.

Pourquoi la taille compte

Le « Large » dans LLM fait un vrai travail. L'échelle s'avère importante d'une manière que les chercheurs n'avaient pas pleinement anticipée. Un modèle d'un milliard de paramètres peut gérer la grammaire de base et des faits simples. Un modèle de 70 milliards de paramètres peut écrire du code fonctionnel et raisonner sur des problèmes à plusieurs étapes. Les plus grands modèles (des centaines de milliards de paramètres, entraînés sur des milliers de milliards de tokens) exhibent des capacités émergentes — des compétences qui apparaissent soudainement à une certaine échelle plutôt que de s'améliorer graduellement. Le raisonnement par chaîne de pensée, le transfert multilingue et l'apprentissage en contexte sont autant de capacités qui n'apparaissent de manière fiable qu'une fois que les modèles franchissent certains seuils de taille. Ce comportement de mise à l'échelle est décrit par des « lois d'échelle » (scaling laws) qui relient la taille du modèle, la taille du jeu de données et le budget de calcul à la performance de manière étonnamment prévisible.

Du prédicteur à l'assistant

Après le pré-entraînement, les LLM bruts ne sont pas particulièrement utiles en conversation — ils veulent juste compléter du texte, alors ils pourraient continuer votre question avec d'autres questions au lieu d'y répondre. C'est là qu'intervient l'alignement. Des techniques comme le RLHF (reinforcement learning from human feedback) et l'IA constitutionnelle entraînent le modèle à être utile, inoffensif et honnête plutôt que simple prédicteur de texte. C'est la différence entre un modèle de base (comme Llama brut) et un modèle de chat (comme Claude ou ChatGPT). Le modèle de base possède les connaissances ; l'alignement lui apprend à utiliser ces connaissances dans une conversation.

Le déficit de fiabilité

Un piège pratique qui attrape beaucoup de développeurs : les LLM ne « savent » pas les choses comme une base de données. Ils ont encodé des patterns statistiques à partir des données d'entraînement, ce qui signifie qu'ils peuvent affirmer avec assurance des choses subtilement ou complètement fausses — c'est l'hallucination. Ils ont aussi une date limite de connaissances et ne peuvent pas accéder à l'information en temps réel à moins de disposer d'outils. Les meilleurs praticiens traitent les LLM comme des collaborateurs très compétents mais peu fiables : excellents pour les ébauches, le remue-méninges et la génération de code, mais nécessitant une vérification pour les affirmations factuelles. La génération augmentée par récupération (RAG), l'analyse de sorties structurées et l'utilisation d'outils sont les patterns d'ingénierie qui rendent les applications propulsées par LLM fiables en production.

Grand modèle de langage