Le terme « caractéristique » a des sens différents selon le contexte. En apprentissage automatique classique, les caractéristiques sont des variables d'entrée conçues à la main (taille, poids, âge). En apprentissage profond, les caractéristiques sont des représentations apprises dans les couches cachées — le modèle découvre les patterns utiles par lui-même. Ce passage des caractéristiques conçues à la main aux caractéristiques apprises est l'innovation centrale de l'apprentissage profond et la raison pour laquelle il surpasse l'apprentissage automatique classique sur des tâches complexes comme la vision et le langage.
Les réseaux profonds apprennent des caractéristiques hiérarchiques : chaque couche s'appuie sur la précédente. Dans un modèle de vision : la couche 1 détecte les bords, la couche 2 combine les bords en textures et coins, la couche 3 combine les textures en parties d'objets (yeux, roues), la couche 4 combine les parties en objets (visages, voitures). Cette hiérarchie émerge automatiquement de l'entraînement — personne ne la programme. Le même apprentissage hiérarchique se produit dans les modèles de langage, des patterns de caractères à la syntaxe, à la sémantique, au raisonnement.
Les chercheurs visualisent les caractéristiques pour comprendre ce que les modèles apprennent. Pour les modèles de vision, on peut générer des images qui activent maximalement un neurone ou une direction spécifique, révélant quel pattern il détecte. Pour les modèles de langage, on peut trouver les exemples de texte qui activent le plus une direction de caractéristique spécifique. La recherche d'Anthropic a visualisé des caractéristiques dans Claude, trouvant des concepts interprétables comme « Golden Gate Bridge », « bogues de code », « tromperie » et « langue française » encodés comme des directions spécifiques dans l'espace d'activation du modèle.