O princípio central: inicialize pesos para que a variância das ativações seja aproximadamente constante entre camadas. Se cada camada amplifica o sinal (variância cresce), ativações explodem. Se cada camada o diminui (variância encolhe), ativações desaparecem. Inicialização Xavier define pesos com variância 2/(fan_in + fan_out). Inicialização Kaiming define variância 2/fan_in, contabilizando o fato de que ReLU zera metade dos valores.
Transformers modernos frequentemente usam inicialização escalada: pesos de projeção de saída em camadas de atenção e FFN são inicializados com desvio padrão escalado por 1/√(2×num_layers). Isso previne o fluxo residual de crescer demais conforme contribuições de muitas camadas se acumulam. GPT-2 e muitos modelos subsequentes usam essa abordagem de "init escalado". Algumas arquiteturas (como muP/maximal update parameterization) levam isso mais longe com regras de escalonamento matematicamente derivadas.
Para a maioria dos propósitos práticos, inicialização do zero é rara — você começa de pesos pré-treinados e faz fine-tuning. Mas a inicialização ainda importa para os novos componentes: adaptadores LoRA, novas cabeças de classificação ou embeddings de vocabulário estendidos. Inicialização com zero para a matriz B do LoRA (para que o adaptador comece como identidade) e inicialização adequada para novos embeddings de tokens (tipicamente copiando a média dos embeddings existentes) são padrões comuns que previnem os novos componentes de perturbar o modelo pré-treinado no início do fine-tuning.