Retropropagación: Definición y significado — Wiki de IA

El algoritmo que calcula cuánto contribuyó cada parámetro en una red neuronal al error, permitiendo que el descenso de gradiente actualice los parámetros eficientemente. La retropropagación aplica la regla de la cadena del cálculo en reversa a través de la red: partiendo de la pérdida en la salida, propaga gradientes hacia atrás a través de cada capa para determinar la parte de culpa de cada peso.

Por qué importa

La retropropagación es el algoritmo que hace posible el entrenamiento de redes neuronales. Sin una forma eficiente de calcular gradientes para miles de millones de parámetros, el descenso de gradiente sería computacionalmente inviable. Cada modelo que usas — desde un pequeño clasificador hasta un LLM de 400B — fue entrenado usando retropropagación. Es el algoritmo más importante del deep learning.

En profundidad

El pase forward: la entrada fluye a través de la red, cada capa aplica su transformación, y la capa final produce una predicción. La función de pérdida calcula qué tan equivocada está la predicción. El pase backward: partiendo de la pérdida, la retropropagación calcula ∂loss/∂weight para cada peso de la red usando la regla de la cadena: ∂loss/∂w = ∂loss/∂output · ∂output/∂hidden · ∂hidden/∂w. Cada capa recibe el gradiente de la capa superior y pasa su propio gradiente a la capa inferior.

Eficiencia computacional

Calcular ingenuamente el gradiente para cada peso de forma independiente requeriría un pase forward separado por peso — imposiblemente caro para miles de millones de parámetros. La retropropagación reutiliza resultados intermedios: el gradiente en cada capa se calcula una vez y se comparte con todos los pesos de esa capa. El pase backward cuesta aproximadamente 2x el pase forward en cómputo, lo que significa que el costo total de un paso de entrenamiento (forward + backward + actualización) es aproximadamente 3x un solo pase forward.

Diferenciación automática

Los frameworks modernos de deep learning (PyTorch, JAX) implementan la retropropagación a través de diferenciación automática (autograd). Defines el cálculo forward y el framework construye automáticamente el grafo de cálculo backward y calcula los gradientes. Esto significa que nunca derivas gradientes manualmente — defines la arquitectura del modelo y la pérdida, llamas a loss.backward(), y el framework se encarga del resto. Esta automatización es lo que hace práctica la experimentación rápida de arquitecturas.

Retropropagación

Por qué importa

En profundidad

Eficiencia computacional

Diferenciación automática

Conceptos relacionados