Apprentissage par transfert : Définition et signification — Wiki IA

Utiliser les connaissances apprises d'une tâche ou d'un jeu de données pour améliorer la performance sur une tâche différente mais liée. Au lieu d'entraîner à partir de zéro chaque fois, tu commences avec un modèle qui comprend déjà des patterns généraux (structure du langage, caractéristiques visuelles) et tu l'adaptes à ton besoin spécifique. Le pré-entraînement suivi d'un ajustement fin est le paradigme dominant en IA moderne.

Pourquoi c'est important

L'apprentissage par transfert est la raison pour laquelle l'IA est devenue pratique. Entraîner un modèle de langage à partir de zéro coûte des millions de dollars. Ajuster finement un modèle pré-entraîné sur ta tâche spécifique coûte quelques dizaines de dollars et quelques heures. Cette économie est ce qui a permis l'explosion des applications d'IA — tu n'as pas besoin du budget de Google pour construire quelque chose d'utile.

En profondeur

L'intuition clé : les caractéristiques de bas niveau se transfèrent d'une tâche à l'autre. Un modèle de vision entraîné sur ImageNet apprend à détecter les contours, les textures et les formes dans ses couches initiales — des caractéristiques utiles pour presque n'importe quelle tâche visuelle. Un modèle de langage entraîné sur du texte web apprend la grammaire, les faits et les patterns de raisonnement utiles pour presque n'importe quelle tâche linguistique. L'apprentissage par transfert exploite cela en réutilisant les connaissances générales et en n'entraînant que les parties spécifiques à la tâche.

Le paradigme pré-entraînement + ajustement fin

Presque tous les systèmes d'IA aujourd'hui suivent ce pattern : (1) pré-entraîner un grand modèle sur un jeu de données massif et général (coûteux, fait une seule fois), (2) ajuster finement sur un jeu de données plus petit et spécifique à la tâche (pas cher, fait de nombreuses fois). BERT a inauguré cela pour le NLP en 2018. GPT l'a mis à l'échelle. Toute l'industrie des LLM est construite sur ce paradigme — les modèles de fondation sont la base pré-entraînée, et l'ajustement fin (incluant RLHF/DPO) est ce qui les rend utiles comme assistants.

Quand le transfert échoue

L'apprentissage par transfert fonctionne mieux quand les domaines source et cible sont apparentés. Un modèle pré-entraîné sur du texte anglais se transfère bien au français (structure similaire) mais mal aux séquences de protéines (domaine complètement différent). Quand les domaines sont trop différents, le transfert peut en fait nuire à la performance (« transfert négatif »). Le pré-entraînement spécifique au domaine (comme BioGPT pour le texte biomédical ou CodeLlama pour le code) résout cela en pré-entraînant sur des données pertinentes au domaine.

Apprentissage par transfert

Pourquoi c'est important

En profondeur

Le paradigme pré-entraînement + ajustement fin

Quand le transfert échoue

Concepts connexes