La forme de sigmoid : c'est une courbe en S centrée sur 0. Pour les grandes entrées positives, elle sature près de 1. Pour les grandes entrées négatives, elle sature près de 0. Autour de 0, elle transite en douceur. Cette forme en faisait un choix naturel pour les premiers réseaux de neurones : elle imite le taux de décharge d'un neurone biologique (éteint à allumé) et produit naturellement des sorties bornées.
Sigmoid a deux problèmes pour les réseaux profonds. Premier, les gradients qui s'évanouissent : dans les régions saturées (entrées très positives ou très négatives), le gradient est quasi nul, ce qui signifie que l'apprentissage s'arrête effectivement pour ces neurones. Deuxième, les sorties non centrées sur zéro : sigmoid produit toujours des valeurs positives, ce qui fait que les gradients sont soit tous positifs soit tous négatifs, ralentissant la convergence. ReLU résout les deux : elle a un gradient constant de 1 pour les entrées positives et est centrée sur zéro (pour les entrées positives).
Sigmoid reste le bon choix quand tu as spécifiquement besoin d'une sortie (0, 1) : classification binaire (probabilité de la classe positive), portes (combien laisser passer, comme dans les LSTM), et toute opération où tu as besoin d'une activation lisse et bornée. La fonction d'activation SiLU (x · sigmoid(x)) ramène sigmoid dans les architectures modernes dans un rôle de porte, combinant la douceur de sigmoid avec les propriétés de gradient de la fonction identité.