Le débat sur l’émergence a commencé avec un article de 2022 publié par Google et ses collaborateurs travaillant sur BIG-Bench, un vaste ensemble de benchmarks comprenant plus de 200 tâches. Ils ont testé des modèles de langage de différentes tailles et ont constaté quelque chose d’impressionnant : sur de nombreuses tâches, les performances étaient essentiellement plates (proches du hasard) pour les modèles de petite et moyenne taille, puis augmentaient brusquement une fois qu’un modèle dépassait un seuil donné de paramètres. L’article, « Emergent Abilities of Large Language Models » de Wei et al., a tracé ces courbes et le motif était frappant — les capacités semblaient s’allumer comme une lumière, sans s’introduire progressivement. Cette formulation a captivé l’imagination du domaine. Si les modèles pouvaient acquérir des capacités qualitativement nouvelles simplement en devenant plus grands, alors l’échelle n’était pas seulement un défi d’ingénierie, mais un chemin vers une intelligence véritablement surprenante.
Les exemples étaient convaincants. GPT-3 (175 milliards de paramètres) pouvait effectuer des calculs à quelques exemples que GPT-2 (1,5 milliard) ne pouvait pas atteindre. Le raisonnement en plusieurs étapes, où un modèle doit chaîner des inférences logiques, n’apparaissait qu’avec des modèles de taille supérieure à un certain seuil. La traduction entre paires de langues sur lesquelles le modèle n’avait jamais été explicitement entraîné apparaissait à grande échelle. La génération de code — la capacité d’écrire des programmes fonctionnels à partir de descriptions en langage naturel — passait d’inefficace à fonctionnelle entre 10 et 100 milliards de paramètres. Le désenchevêtrage de mots, une tâche qui semble nécessiter une représentation interne de l’orthographe, bondissait de 0 % à presque parfait sur un intervalle étroit de paramètres. Ce motif se répétait sur de nombreuses tâches de BIG-Bench : plat, plat, plat, puis une compétence soudaine. Cela ressemblait à de preuves que l’échelle produisait des transitions de phase authentiques — des changements qualitatifs dans ce que le modèle pouvait faire, et non seulement des améliorations quantitatives dans la manière dont il exécutait des tâches familières.
En 2023, Rylan Schaeffer, Brando Miranda et Sanmi Koyejo de Stanford ont publié une critique directe. Leur argument était précis : l’émergence n’est pas une propriété du modèle, mais une propriété de la métrique. Les tâches de BIG-Bench montrant des transitions nettes utilisaient principalement des métriques discontinues — la précision de correspondance exacte, où aucun crédit n’est attribué aux réponses presque correctes. Un modèle qui s’améliore progressivement de 0,1 % à 5 %, puis à 30 % semble ne rien faire, rien faire, rien faire, puis soudain performer, car aucun crédit partiel n’existe. Lorsque Schaeffer et ses collègues ont réévalué les mêmes modèles sur les mêmes tâches en utilisant des métriques continues comme la probabilité logarithmique ou la précision au niveau des tokens, les transitions nettes ont disparu. Les performances s’amélioraient de manière lisse et prévisible avec l’échelle. L’« émergence » était un artefact du choix de métriques incapables de détecter une amélioration progressive. Ce n’était pas une question méthodologique mineure. Si cela était correct, cela signifiait que le récit le plus excitant de l’IA — que les modèles plus grands développent spontanément de nouvelles capacités — était partiellement une illusion de mesure.
Les enjeux de ce débat dépassent largement l’intérêt académique. Si l’émergence est réelle — si les modèles acquièrent effectivement des capacités imprévisibles à certaines échelles — alors la planification de la sécurité fait face à un problème fondamental : on ne peut pas se préparer à des capacités qu’on ne peut pas anticiper. Un modèle inoffensif à 100 milliards de paramètres pourrait développer des capacités de persuasion, des stratégies de tromperie ou des compétences d’utilisation d’outils à 1 trillion de paramètres, sans avertissement sur la courbe d’échelle. C’est l’argument principal en faveur d’une échelle prudente et progressive, accompagnée d’évaluations approfondies à chaque étape. Si l’émergence est principalement un artefact de mesure, la situation est plus rassurante : les capacités s’améliorent de manière lisse et prévisible, donc les évaluations à petite échelle donnent un signal significatif sur ce à quoi on peut s’attendre avec des modèles plus grands. Les implications de sécurité de chaque interprétation sont presque opposées, ce qui explique pourquoi les deux côtés du débat sont sincèrement investis pour obtenir la bonne réponse.
La réponse honnête est que le domaine n’a pas encore atteint un consensus. La critique de Stanford est largement acceptée comme démontrant que certaines capacités émergentes rapportées étaient des artefacts de mesure — cette partie n’est pas sérieusement contestée. Cependant, de nombreux chercheurs affirment que la critique ne réexplique pas tout. Certaines capacités, en particulier celles impliquant la compositionnalité (la combinaison de compétences apprises de nouvelles manières), la planification et le raisonnement en plusieurs étapes, semblent effectivement montrer des changements qualitatifs qui ne sont pas facilement expliqués par le choix de métrique seul. L’impact pratique pour les laboratoires prenant des décisions d’échelle est un message mitigé : on peut probablement prédire les améliorations suivantes plus fiablement que ne le suggéraient les premiers articles sur l’émergence, mais on ne doit pas supposer que toutes les surprises ont été expliquées. L’approche prudente — adoptée par la plupart des laboratoires de pointe — est d’évaluer en détail à chaque augmentation d’échelle et de maintenir l’infrastructure permettant de suspendre l’expérimentation si quelque chose d’inattendu apparaît. Qu’on appelle les surprises résultantes « émergence » ou « amélioration prévisible que nous n’avons pas mesurée correctement » importe moins que savoir si on est prêt à les gérer.