Réseau de neurones : Définition et signification — Wiki IA

Un système informatique vaguement inspiré du cerveau biologique, composé de couches de « neurones » interconnectés (des fonctions mathématiques) qui apprennent des patterns à partir de données. L'information traverse les couches en étant progressivement transformée jusqu'à ce que le réseau produise une sortie. Tous les modèles d'IA modernes sont des réseaux de neurones d'un type ou d'un autre.

Pourquoi c’est important

Les réseaux de neurones sont le « comment » derrière toute l'IA. Comprendre qu'il s'agit de mathématiques (ni de magie, ni de cerveaux) aide à démystifier ce que l'IA peut et ne peut pas faire. Ce sont des détecteurs de patterns — extraordinairement puissants, certes, mais des détecteurs de patterns tout de même.

En profondeur

Un réseau de neurones est, fondamentalement, une chaîne de multiplications matricielles entrecoupées de fonctions non linéaires. Chaque « neurone » calcule une somme pondérée de ses entrées, ajoute un terme de biais, et passe le résultat à travers une fonction d'activation (ReLU, GELU, sigmoïde, et d'autres). Empilez des milliers de ces neurones en couches, empilez des dizaines de couches en profondeur, et vous obtenez un réseau capable d'apprendre des fonctions d'une complexité stupéfiante — de la reconnaissance faciale à la génération de prose en passant par le repliement de protéines. La magie ne réside pas dans un neurone individuel (qui n'est qu'un calcul mathématique trivial) mais dans la composition : les couches se construisent les unes sur les autres, chacune apprenant des représentations progressivement plus abstraites des données d'entrée.

Comment fonctionne l'entraînement

Entraîner un réseau de neurones signifie trouver les bonnes valeurs pour tous ces poids et biais — souvent des milliards d'entre eux. Cela se fait par rétropropagation et descente de gradient. On présente une entrée au réseau, on compare sa sortie à la réponse souhaitée, on calcule à quel point il s'est trompé (la perte, ou loss), puis on remonte à rebours à travers chaque couche en calculant comment chaque poids a contribué à cette erreur. Chaque poids est légèrement ajusté dans la direction qui réduit la perte. Répétez cela des milliards de fois sur l'ensemble de vos données, et le réseau converge vers des poids qui produisent des sorties utiles. Le processus est conceptuellement simple, mais le faire fonctionner à grande échelle demande une ingénierie soignée : planifications du taux d'apprentissage, normalisation par lots, stratégies d'initialisation des poids, et beaucoup de mémoire GPU.

La route vers 2012

L'histoire compte pour comprendre où nous en sommes aujourd'hui. Les réseaux de neurones ont été proposés pour la première fois dans les années 1940 et ont connu leur apogée dans les années 1960 (perceptrons), suivie d'un long « hiver de l'IA » où ils sont tombés en disgrâce. La résurgence moderne a commencé vers 2012, quand un réseau de neurones convolutif profond appelé AlexNet a écrasé la compétition ImageNet avec une marge qui a stupéfié le domaine. Ce qui a changé n'était pas la théorie — la rétropropagation existait depuis les années 1980 — mais le matériel (les GPU ont rendu le parallélisme massif abordable) et les données (Internet a fourni des ensembles d'entraînement d'ordres de grandeur supérieurs à tout ce qui existait avant). Chaque percée majeure en IA depuis lors, d'AlphaGo à GPT-4 en passant par Sora, a été un réseau de neurones d'une variété ou d'une autre.

Le zoo des architectures

Aujourd'hui, le terme « réseau de neurones » couvre une famille étendue d'architectures, chacune adaptée à des problèmes différents. Les réseaux de neurones convolutifs (CNN) dominent les tâches d'imagerie en exploitant la structure spatiale. Les réseaux de neurones récurrents (RNN) et leurs variantes LSTM étaient la solution de prédilection pour les données séquentielles avant que les Transformers ne les remplacent. Les Transformers, construits sur l'auto-attention, propulsent pratiquement tous les LLM modernes. Les state-space models (SSM) comme Mamba offrent une alternative pour les longues séquences avec une complexité en temps linéaire au lieu du coût quadratique du Transformer. Les réseaux de neurones sur graphes gèrent les structures moléculaires et les réseaux sociaux. Les modèles de diffusion (un type de réseau de neurones entraîné à inverser un processus de bruitage) génèrent des images et de la vidéo. L'architecture que vous choisissez détermine ce que votre modèle peut apprendre efficacement, et choisir la mauvaise pour votre problème peut compter plus qu'avoir davantage de données ou de puissance de calcul.

Ce n'est pas vraiment un cerveau

Une idée reçue tenace veut que les réseaux de neurones fonctionnent « comme le cerveau ». Ce n'est vraiment pas le cas. Les neurones biologiques communiquent par des impulsions électriques temporisées, forment des boucles récurrentes, se recâblent physiquement et opèrent sur des échelles de temps et des budgets énergétiques radicalement différents du silicium. Les réseaux de neurones artificiels ont emprunté la métaphore des nœuds connectés puis ont divergé de façon quasi totale. Personne faisant de la recherche sérieuse en IA aujourd'hui ne consulte des articles de neurosciences pour concevoir de meilleurs Transformers. L'analogie avec le cerveau est utile pour une intuition de cinq secondes (« ça apprend à partir d'exemples ») mais trompeuse pour quoi que ce soit de plus profond. Ce que les réseaux de neurones sont réellement — des approximateurs de fonctions différentiables entraînés par descente de gradient — est à la fois moins romantique et plus précisément utile à comprendre.

Réseau de neurones