Apprentissage automatique : Définition et signification — Wiki IA

Le domaine vaste de l'informatique où les systèmes apprennent des modèles à partir de données plutôt que de suivre des règles explicites. Au lieu de programmer un ordinateur pour reconnaître un chat en listant des caractéristiques (quatre pattes, oreilles pointues, moustaches), on lui montre des milliers de photos de chats et on lui laisse découvrir le modèle par lui-même. L'apprentissage automatique englobe tout, de la régression linéaire simple aux réseaux de neurones profonds qui alimentent l'IA d'aujourd'hui — l'apprentissage supervisé (exemples étiquetés), l'apprentissage non supervisé (découverte de structures) et l'apprentissage par renforcement (essai-erreur).

Pourquoi c’est important

L'apprentissage automatique est le fondement de tous les outils que nous appelons « IA » aujourd'hui. Chaque modèle de langage de grande envergure, chaque générateur d'images, chaque algorithme de recommandation, chaque filtre anti-spam — c'est tout l'apprentissage automatique. Comprendre l'apprentissage automatique en tant que discipline plus large vous permet de voir où s'applique l'apprentissage profond, où les méthodes classiques restent plus efficaces, et pourquoi l'« IA » n'est en réalité qu'« l'apprentissage automatique qui a vraiment bien fonctionné ».

En profondeur

L'apprentissage automatique se divise en trois paradigmes, et connaître celui qui s'applique vous évite d'utiliser le mauvais outil. L'apprentissage supervisé est le cheval de bataille : vous fournissez au modèle des exemples étiquetés (ce courriel est du spam, ce n'en est pas un) et il apprend une correspondance entre l'entrée et la sortie. La classification, la régression, la traduction, la génération de légendes d'images — si vous disposez de données étiquetées, l'apprentissage supervisé est probablement le point de départ. L'apprentissage non supervisé fonctionne sans étiquettes : il découvre lui-même la structure. Regrouper des clients selon leur comportement d'achat, réduire un ensemble de données comprenant 10 000 caractéristiques à ses dimensions les plus informatives, détecter le trafic réseau anormal qui ne correspond à aucun motif connu. Vous l'utilisez lorsque vous ne savez pas ce que vous cherchez, ce qui arrive plus souvent que les gens ne l'admettent. L'apprentissage par renforcement est le cas particulier — le modèle apprend par essais et erreurs, recevant des récompenses ou des pénalités pour ses actions. C'est ainsi qu'AlphaGo a battu le champion du monde, que les robots apprennent à marcher, et que l'apprentissage par renforcement avec l'humain (RLHF) aligne les modèles de langage de grande taille (LLM) sur les préférences humaines. C'est également notoirement difficile à maîtriser, ce qui explique pourquoi la plupart des systèmes d'apprentissage automatique en production restent supervisés.

Apprentissage classique vs. Deep Learning

Il existe une idée persistante selon laquelle le deep learning aurait rendu l'apprentissage classique obsolète. Ce n'est pas le cas. La régression logistique bat encore un Transformer lorsqu'on dispose de 500 lignes de données tabulaires, d'un ensemble de caractéristiques clair et d'une nécessité d'expliquer ses prédictions à un régulateur. Les forêts aléatoires et les arbres de régression boostingés (XGBoost, LightGBM) dominent les compétitions Kaggle sur les données structurées pour une raison — ils sont rapides à entraîner, difficiles à surajuster et leur importance des caractéristiques est interprétable. Le deep learning brille lorsque les données sont non structurées (images, textes, audio, vidéo) et que les caractéristiques sont trop complexes à ingénier manuellement. Personne n'écrit plus de filtres de détection de contours car les réseaux de neurones convolutifs apprennent de meilleurs filtres. Personne n'écrit plus de règles de grammaire pour la traduction car les Transformers apprennent la correspondance de bout en bout. La compétence réside à connaître le régime dans lequel on se trouve. Si vos données tiennent dans une feuille de calcul, essayez d'abord XGBoost. Si ce n'est pas le cas, c'est alors que les réseaux de neurones méritent leur complexité.

La boucle d'entraînement

Chaque projet d'apprentissage automatique suit la même boucle, que vous entraîniez un filtre de spam ou un modèle de langage de grande taille comprenant 400 milliards de paramètres. Vous commencez par les données — leur collecte, leur nettoyage, leur division en ensembles d'entraînement et de test. Ensuite, vous extrayez ou apprenez des caractéristiques : dans l'apprentissage classique, cela signifie les ingénier manuellement (comptes de mots, histogrammes de pixels, caractéristiques de dates) ; dans le deep learning, le modèle apprend ses propres caractéristiques à partir de l'entrée brute. Vous choisissez une architecture de modèle, l'entraînez en minimisant une fonction de perte sur les données d'entraînement, puis l'évaluez sur des données réservées pour vérifier s'il généralise effectivement. Cela fonctionne presque jamais la première fois. Vous itérez donc — plus de données, de meilleures caractéristiques, d'autres hyperparamètres, une architecture totalement différente. L'écart entre une pipeline ML classique et un système en production est principalement cette boucle, exécutée des centaines de fois avec des expériences de plus en plus désespérées jusqu'à ce que quelque chose fonctionne suffisamment bien pour être déployé.

Pourquoi maintenant

Les idées sous-jacentes à l'apprentissage automatique ne sont pas nouvelles. Le backpropagation a été découvert dans les années 1980. Les SVM et les forêts aléatoires étaient matures dès le début des années 2000. Ce qui a changé, c'est que trois éléments se sont conjugués en même temps. Premièrement, les données : l'internet a généré plus de données étiquetées et non étiquetées que personne ne savait quoi en faire. Deuxièmement, le calcul : les GPU s'avéraient accidentellement parfaits pour les multiplications matricielles nécessaires aux réseaux de neurones, et les fournisseurs de cloud les ont rendus disponibles à l'heure. Troisièmement, les algorithmes : la normalisation par lot, le dropout, les mécanismes d'attention et de meilleurs optimiseurs ont permis d'entraîner des réseaux trop profonds et trop instables pour converger auparavant. Aucun de ces trois facteurs pris isolément n'aurait suffi. Beaucoup de données existaient dans les années 1990, mais personne n'avait le calcul nécessaire pour s'entraîner dessus. Les GPU existaient dans les années 2000, mais les astuces algorithmiques pour entraîner des réseaux de centaines de couches n'avaient pas encore été découvertes. Il a fallu que les trois arrivent ensemble pour déclencher l'onde actuelle — et c'est la raison pour laquelle l'apprentissage automatique est passé d'une curiosité académique au secteur technologique le plus financé sur la planète en moins de dix ans.

Apprentissage automatique

Pourquoi c’est important

En profondeur

Apprentissage classique vs. Deep Learning

La boucle d'entraînement

Pourquoi maintenant

Concepts connexes