La base intellectuelle de l'ASI provient d'I.J. Good, un mathématicien britannique qui a travaillé avec Alan Turing. En 1965, il écrivait : « Une machine ultra-intelligente pourrait concevoir des machines encore meilleures ; il y aurait alors incontestablement une explosion de l'intelligence, et l'intelligence humaine serait laissée bien en arrière. » Nick Bostrom a développé cette idée dans son livre de 2014, Superintelligence, en affirmant que, une fois qu'un système d'IA serait capable d'améliorer son propre architecture et son entraînement, il pourrait rapidement s'autonomiser jusqu'à des niveaux d'intelligence aussi loin de la cognition humaine que les humains le sont des insectes. L'affirmation clé n'est pas que l'ASI serait un peu plus intelligente que nous — c'est que l'écart pourrait être incompréhensible, et que la transition de l'intelligence humaine à une intelligence bien supérieure pourrait se produire en jours ou en semaines, et non en décennies. C'est ce qu'on appelle le scénario « d'effet de levier rapide », et il demeure l'idée la plus débattue en matière de sécurité de l'IA.
La plupart des chercheurs en IA actifs sont sceptiques quant à une ASI proche, et ils ont de bonnes raisons. L'amélioration récursive de soi semble élégante en théorie, mais elle heurte des obstacles pratiques : améliorer un système d'IA nécessite non seulement de l'intelligence, mais aussi des données, des ressources de calcul et des connaissances sur la nature même de l'intelligence — rien de cela n'est garanti par le simple fait d'être plus intelligent. Il n'existe aucune preuve que l'intelligence puisse s'étendre sans limite, et il pourrait y avoir des limites fondamentales en matière de calcul sur ce qu'un système peut accomplir. Les architectures actuelles de l'IA montrent des rendements décroissants avec l'augmentation de l'échelle, et il n'existe pas de chemin connu menant même d'un LLM très capable à une amélioration récursive authentique. Toutefois, la plupart de ces mêmes chercheurs prennent sérieusement le risque à long terme. L'argument n'est pas « l'ASI est impossible », mais plutôt « l'ASI n'est pas imminente, et le chemin menant à elle est peu probable de ressembler à ce que la science-fiction imagine ». Le problème est que si vous êtes dans l'erreur sur l'échéance de quelques décennies ou quelques années, et que vous n'avez pas pris de mesures, les conséquences pourraient être catastrophiques.
L'alignement — faire en sorte que l'IA fasse ce que nous voulons réellement — est déjà difficile avec les systèmes actuels. Au niveau de l'intelligence superhumaine, il devient un problème qualitativement différent. Les techniques d'alignement actuelles reposent sur une hypothèse simple : les humains peuvent évaluer si la sortie de l'IA est bonne. Nous utilisons le RLHF (reinforcement learning from human feedback) parce que les humains peuvent lire un essai et dire « celui-ci est meilleur ». Nous utilisons le red-teaming parce que les humains peuvent explorer les modes d'échec. Cependant, ces techniques exigent fondamentalement que l'humain soit plus intelligent que l'IA pour la tâche évaluée, ou du moins suffisamment intelligent pour reconnaître les sorties bonnes et mauvaises. Un système super-intelligent, par définition, opère au-delà de la capacité d'évaluation humaine. Il pourrait produire des solutions qui nous paraissent correctes mais contiennent des failles subtiles que nous ne pouvons pas détecter, ou adopter des stratégies qui semblent alignées sur tous les indicateurs que nous pouvons mesurer, tout en optimisant en réalité pour quelque chose de tout à fait différent. Ce n'est pas un cas limite hypothétique — c'est le problème central. Vous ne pouvez pas utiliser le RLHF sur un système plus intelligent que vous, pour la même raison que vous ne pouvez pas évaluer une thèse de doctorat dans un domaine que vous ne comprenez pas.
Quelle que soit la distance temporelle de l'ASI, la possibilité influence concrètement ce qui se passe aujourd'hui. Anthropic a été fondé explicitement autour de la prémisse selon laquelle une IA avancée pourrait poser des risques existentiels, et cette croyance oriente leurs priorités de recherche, leurs normes de publication et leur volonté d'accepter un progrès des capacités plus lent en échange de garanties de sécurité meilleures. Le charter d'OpenAI fait référence à l'objectif d'assurer que l'AGI « profite à toute l'humanité », une formulation qui reconnaît implicitement le scénario de l'ASI. Les gouvernements rédigent des réglementations sur l'IA en intégrant l'intelligence superhumaine dans leurs modèles de menace — le projet de loi sur l'IA de l'Union européenne, l'ordre exécutif de Biden et le cadre de gouvernance de l'IA chinois comprennent tous des dispositions qui n'ont de sens que si l'on prend sérieusement en compte l'IA transformante. Le débat sur la gouvernance des calculs — c'est-à-dire sur la restriction ou non de l'accès aux plus grands entraînements — est directement motivé par l'idée que l'augmentation non contrôlée pourrait produire des systèmes au-delà de notre capacité à les contrôler. Les tendances d'investissement reflètent également cela : des milliards de dollars affluent vers la recherche d'alignement, l'interprétabilité et la sécurité de l'IA non pas parce que les investisseurs sont altruistes, mais parce qu'ils reconnaissent que l'intelligence superhumaine non alignée est mauvaise pour les affaires dans le sens le plus littéral possible.
Le débat autour de l'ASI tend vers deux extrêmes, et les deux sont inutiles. D'un côté, les « pessimistes » attribuent une probabilité élevée à une ASI imminente suivie d'une extinction humaine, parfois arguant que le développement de l'IA devrait être totalement arrêté. De l'autre côté, les sceptiques traitent toute discussion sur l'intelligence superhumaine comme de la science-fiction, méritant peu d'attention sérieuse. Le juste milieu raisonnable — occupé par la plupart des chercheurs qui ont réellement réfléchi à ce sujet — ressemble à ceci : l'ASI n'est pas imminente, mais elle est plausible sur une échelle de décennies à des siècles ; les risques sont suffisamment réels pour justifier une recherche sérieuse et une politique réfléchie ; les techniques actuelles d'alignement sont insuffisantes pour des systèmes véritablement superhumains et nous devons développer de meilleures solutions bien à l'avance ; et cela ne signifie pas que nous devons arrêter de construire de l'IA, mais cela signifie que nous devons la construire avec soin, en investissant sérieusement dans la sécurité, à la hauteur de nos investissements en capacité. Le défi est que cette position nuancée ne fait pas de bons titres, donc le débat public est dominé par les extrêmes, tandis que le travail réel pour rendre l'IA avancée sûre se fait discrètement dans les laboratoires de recherche.