El principio central: inicializar pesos para que la varianza de las activaciones sea aproximadamente constante a través de las capas. Si cada capa amplifica la señal (la varianza crece), las activaciones explotan. Si cada capa la disminuye (la varianza se reduce), las activaciones se desvanecen. La inicialización Xavier establece pesos con varianza 2/(fan_in + fan_out). La inicialización Kaiming establece varianza 2/fan_in, teniendo en cuenta que ReLU anula la mitad de los valores.
Los Transformers modernos a menudo usan una inicialización escalada: los pesos de proyección de salida en las capas de attention y FFN se inicializan con desviación estándar escalada por 1/√(2×num_layers). Esto previene que el residual stream crezca demasiado a medida que se acumulan contribuciones de muchas capas. GPT-2 y muchos modelos posteriores usan este enfoque de "scaled init". Algunas arquitecturas (como muP/maximal update parameterization) llevan esto más lejos con reglas de escalado derivadas matemáticamente.
Para la mayoría de propósitos prácticos, la inicialización desde cero es rara — comienzas con pesos pre-entrenados y haces ajuste fino. Pero la inicialización aún importa para los nuevos componentes: adaptadores LoRA, nuevas cabezas de clasificación o embeddings de vocabulario extendido. La inicialización en cero para la matriz B de LoRA (para que el adaptador comience como identidad) y la inicialización adecuada para nuevos embeddings de tokens (típicamente copiando la media de los embeddings existentes) son patrones comunes que previenen que los nuevos componentes perturben el modelo pre-entrenado al inicio del ajuste fino.