Sigmoid : Définition et signification — Wiki IA

Une fonction mathématique qui compresse n'importe quel nombre réel dans l'intervalle (0, 1) : σ(x) = 1 / (1 + e^(−x)). Historiquement la fonction d'activation par défaut dans les réseaux de neurones, maintenant largement remplacée par ReLU et GELU pour les couches cachées mais toujours utilisée pour les sorties de classification binaire, les mécanismes de porte (dans les LSTM et GLU), et les opérations de type attention où tu as besoin de valeurs entre 0 et 1.

Pourquoi c'est important

Sigmoid apparaît partout en IA même si ce n'est plus l'activation cachée par défaut. Les portes LSTM utilisent sigmoid. L'activation SiLU/Swish est x · sigmoid(x). Les classifieurs binaires utilisent sigmoid comme activation de sortie. Comprendre sigmoid — et pourquoi elle a été remplacée par ReLU pour les couches cachées — est une connaissance fondamentale pour comprendre les choix de conception des réseaux de neurones.

En profondeur

La forme de sigmoid : c'est une courbe en S centrée sur 0. Pour les grandes entrées positives, elle sature près de 1. Pour les grandes entrées négatives, elle sature près de 0. Autour de 0, elle transite en douceur. Cette forme en faisait un choix naturel pour les premiers réseaux de neurones : elle imite le taux de décharge d'un neurone biologique (éteint à allumé) et produit naturellement des sorties bornées.

Pourquoi elle a été remplacée

Sigmoid a deux problèmes pour les réseaux profonds. Premier, les gradients qui s'évanouissent : dans les régions saturées (entrées très positives ou très négatives), le gradient est quasi nul, ce qui signifie que l'apprentissage s'arrête effectivement pour ces neurones. Deuxième, les sorties non centrées sur zéro : sigmoid produit toujours des valeurs positives, ce qui fait que les gradients sont soit tous positifs soit tous négatifs, ralentissant la convergence. ReLU résout les deux : elle a un gradient constant de 1 pour les entrées positives et est centrée sur zéro (pour les entrées positives).

Où sigmoid survit

Sigmoid reste le bon choix quand tu as spécifiquement besoin d'une sortie (0, 1) : classification binaire (probabilité de la classe positive), portes (combien laisser passer, comme dans les LSTM), et toute opération où tu as besoin d'une activation lisse et bornée. La fonction d'activation SiLU (x · sigmoid(x)) ramène sigmoid dans les architectures modernes dans un rôle de porte, combinant la douceur de sigmoid avec les propriétés de gradient de la fonction identité.

Sigmoid

Pourquoi c'est important

En profondeur

Pourquoi elle a été remplacée

Où sigmoid survit

Concepts connexes