L'apprentissage automatique se divise en trois paradigmes, et connaître celui qui s'applique vous évite d'utiliser le mauvais outil. L'apprentissage supervisé est le cheval de bataille : vous fournissez au modèle des exemples étiquetés (ce courriel est du spam, ce n'en est pas un) et il apprend une correspondance entre l'entrée et la sortie. La classification, la régression, la traduction, la génération de légendes d'images — si vous disposez de données étiquetées, l'apprentissage supervisé est probablement le point de départ. L'apprentissage non supervisé fonctionne sans étiquettes : il découvre lui-même la structure. Regrouper des clients selon leur comportement d'achat, réduire un ensemble de données comprenant 10 000 caractéristiques à ses dimensions les plus informatives, détecter le trafic réseau anormal qui ne correspond à aucun motif connu. Vous l'utilisez lorsque vous ne savez pas ce que vous cherchez, ce qui arrive plus souvent que les gens ne l'admettent. L'apprentissage par renforcement est le cas particulier — le modèle apprend par essais et erreurs, recevant des récompenses ou des pénalités pour ses actions. C'est ainsi qu'AlphaGo a battu le champion du monde, que les robots apprennent à marcher, et que l'apprentissage par renforcement avec l'humain (RLHF) aligne les modèles de langage de grande taille (LLM) sur les préférences humaines. C'est également notoirement difficile à maîtriser, ce qui explique pourquoi la plupart des systèmes d'apprentissage automatique en production restent supervisés.
Il existe une idée persistante selon laquelle le deep learning aurait rendu l'apprentissage classique obsolète. Ce n'est pas le cas. La régression logistique bat encore un Transformer lorsqu'on dispose de 500 lignes de données tabulaires, d'un ensemble de caractéristiques clair et d'une nécessité d'expliquer ses prédictions à un régulateur. Les forêts aléatoires et les arbres de régression boostingés (XGBoost, LightGBM) dominent les compétitions Kaggle sur les données structurées pour une raison — ils sont rapides à entraîner, difficiles à surajuster et leur importance des caractéristiques est interprétable. Le deep learning brille lorsque les données sont non structurées (images, textes, audio, vidéo) et que les caractéristiques sont trop complexes à ingénier manuellement. Personne n'écrit plus de filtres de détection de contours car les réseaux de neurones convolutifs apprennent de meilleurs filtres. Personne n'écrit plus de règles de grammaire pour la traduction car les Transformers apprennent la correspondance de bout en bout. La compétence réside à connaître le régime dans lequel on se trouve. Si vos données tiennent dans une feuille de calcul, essayez d'abord XGBoost. Si ce n'est pas le cas, c'est alors que les réseaux de neurones méritent leur complexité.
Chaque projet d'apprentissage automatique suit la même boucle, que vous entraîniez un filtre de spam ou un modèle de langage de grande taille comprenant 400 milliards de paramètres. Vous commencez par les données — leur collecte, leur nettoyage, leur division en ensembles d'entraînement et de test. Ensuite, vous extrayez ou apprenez des caractéristiques : dans l'apprentissage classique, cela signifie les ingénier manuellement (comptes de mots, histogrammes de pixels, caractéristiques de dates) ; dans le deep learning, le modèle apprend ses propres caractéristiques à partir de l'entrée brute. Vous choisissez une architecture de modèle, l'entraînez en minimisant une fonction de perte sur les données d'entraînement, puis l'évaluez sur des données réservées pour vérifier s'il généralise effectivement. Cela fonctionne presque jamais la première fois. Vous itérez donc — plus de données, de meilleures caractéristiques, d'autres hyperparamètres, une architecture totalement différente. L'écart entre une pipeline ML classique et un système en production est principalement cette boucle, exécutée des centaines de fois avec des expériences de plus en plus désespérées jusqu'à ce que quelque chose fonctionne suffisamment bien pour être déployé.
Les idées sous-jacentes à l'apprentissage automatique ne sont pas nouvelles. Le backpropagation a été découvert dans les années 1980. Les SVM et les forêts aléatoires étaient matures dès le début des années 2000. Ce qui a changé, c'est que trois éléments se sont conjugués en même temps. Premièrement, les données : l'internet a généré plus de données étiquetées et non étiquetées que personne ne savait quoi en faire. Deuxièmement, le calcul : les GPU s'avéraient accidentellement parfaits pour les multiplications matricielles nécessaires aux réseaux de neurones, et les fournisseurs de cloud les ont rendus disponibles à l'heure. Troisièmement, les algorithmes : la normalisation par lot, le dropout, les mécanismes d'attention et de meilleurs optimiseurs ont permis d'entraîner des réseaux trop profonds et trop instables pour converger auparavant. Aucun de ces trois facteurs pris isolément n'aurait suffi. Beaucoup de données existaient dans les années 1990, mais personne n'avait le calcul nécessaire pour s'entraîner dessus. Les GPU existaient dans les années 2000, mais les astuces algorithmiques pour entraîner des réseaux de centaines de couches n'avaient pas encore été découvertes. Il a fallu que les trois arrivent ensemble pour déclencher l'onde actuelle — et c'est la raison pour laquelle l'apprentissage automatique est passé d'une curiosité académique au secteur technologique le plus financé sur la planète en moins de dix ans.