Pendant la majeure partie de son histoire, le NLP était une entreprise d'ingénierie ingénieuse autour du fait que les ordinateurs n'ont aucune idée de ce que signifient les mots. Les premiers systèmes reposaient sur des représentations en sacs de mots — c'est-à-dire compter combien de fois chaque mot apparaît dans un document et ignorer entièrement l'ordre des mots. TF-IDF a amélioré cela en pondérant davantage les mots rares par rapport aux mots courants, ce qui a rendu la recherche et la récupération de documents surprenamment efficaces pour une approche aussi rudimentaire. Puis, en 2013, word2vec est arrivé et a tout changé en apprenant des représentations vectorielles denses où les mots ayant des significations similaires se trouvaient près les uns des autres dans l'espace vectoriel. Pour la première fois, un modèle pouvait capturer que « roi » moins « homme » plus « femme » équivaut approximativement à « reine ». Les réseaux de neurones récurrents et les LSTMs ont poussé le domaine plus loin en traitant le texte de manière séquentielle, en maintenant un état caché qui transportait l'information à travers une phrase. Ils fonctionnaient, mais ils étaient lents à entraîner, avaient du mal avec les dépendances à long terme, et chaque tâche NLP — traduction, résumé, réponse aux questions — nécessitait sa propre architecture sur mesure.
L'article de 2017 « Attention Is All You Need » n'a pas seulement introduit une nouvelle architecture — il a réduit un écosystème entier de modèles spécialisés à une conception à usage général. Le mécanisme d'attention auto-attention du Transformer a permis au modèle de pondérer la pertinence de chaque mot par rapport à tous les autres mots de l'entrée simultanément, éliminant le goulot d'étranglement séquentiel des RNN. Ce que personne n'avait pleinement anticipé, c'était à quel point cette architecture s'adapterait bien à l'échelle. Former préalablement un grand Transformer sur suffisamment de texte lui permet d'apprendre à faire la traduction, le résumé, l'analyse de sentiment, la génération de code et une douzaine d'autres tâches sans avoir été explicitement entraîné sur l'une d'entre elles. BERT a montré cela du côté de la compréhension en 2018, GPT-2 du côté de la génération en 2019, et d'ici 2023 le schéma était clair : une seule architecture, mise à l'échelle avec plus de données et de calcul, avait effectivement unifié tout le domaine du NLP.
Même si les grands modèles de langage (LLMs) dominent, les tâches classiques de NLP n'ont pas disparu — elles ont simplement changé de contexte. La reconnaissance des entités nommées (extraction de noms, dates, organisations à partir du texte), le tagging des parties du discours, l'analyse de sentiment et la classification du texte sont toujours omniprésents dans les systèmes de production. La question est de savoir quand utiliser un modèle dédié plutôt que de simplement demander à un LLM. Si vous traitez des millions de commentaires clients par jour pour extraire l'analyse de sentiment, un classificateur BERT ajusté finement qui fonctionne sur une seule carte graphique sera des ordres de grandeur plus économique et plus rapide que d'envoyer chaque commentaire à GPT-4. Si vous construisez un pipeline d'analyse ponctuel ou si vous gérez une tâche nécessitant un jugement subtil, une demande à un LLM a plus de sens. L'économie penche vers les modèles spécialisés à grande échelle et les LLM pour la flexibilité et les volumes faibles.
Cela soulève la question des pipelines. Les flux de travail NLP traditionnels sont des pipelines explicites : tokeniser le texte, appliquer le tagging des parties du discours, exécuter l'analyse des dépendances, extraire les entités, classer l'intention. Des outils comme spaCy et NLTK ont été conçus pour cette approche, et ils restent excellents lorsque vous avez besoin de traitement déterministe et inspectable à grande vitesse. L'alternative — envoyer du texte brut à un LLM et lui demander de tout faire d'un seul coup — est séduisante mais comporte des compromis. Les LLM sont non déterministes, coûteux par appel et difficiles à déboguer lorsqu'ils se trompent. En pratique, la plupart des systèmes NLP de production en 2026 sont des hybrides : des pipelines structurés pour les parties nécessitant vitesse et cohérence, des appels à un LLM pour les parties nécessitant du raisonnement et de la flexibilité. Un système de support client pourrait utiliser spaCy pour extraire les entités et classer l'intention, puis confier uniquement la génération de la réponse réelle à un LLM.
Le NLP multilingue a fait de grands progrès, mais l'écart entre l'anglais et toutes les autres langues reste obstinément réel. Des modèles comme mBERT, XLM-R et les variantes multilingues de GPT et Gemini peuvent gérer des dizaines de langues, et le transfert interlingue — entraîner sur des données en anglais et appliquer le modèle à du français ou à l'hindi — fonctionne étonnamment bien pour les langues à ressources importantes. Le problème réside dans la longue traînée. Il y a environ 7 000 langues parlées sur Terre, et la grande majorité n'ont presque aucun texte numérique sur lequel s'entraîner. Les tokeniseurs entraînés principalement sur l'anglais coupent des langues comme le thaï, le khmer ou l'inuktitut en séquences de tokens absurdalement longues, ce qui détériore à la fois les performances et les coûts. Même pour des langues à ressources moyennes comme le vietnamien ou le swahili, la qualité du modèle diminue notablement par rapport à l'anglais. La cause fondamentale réside dans les données : les modèles NLP apprennent à partir du texte, et l'internet est essentiellement en anglais. Corriger cela n'est pas seulement un défi technique — c'est une question de savoir quelles langues peuvent participer à la révolution de l'IA et quelles langues sont laissées de côté.