Una red neuronal es, en el fondo, una cadena de multiplicaciones de matrices intercaladas con funciones no lineales. Cada “neurona” toma una suma ponderada de sus entradas, añade un término de sesgo y pasa el resultado a través de una función de activación (ReLU, GELU, sigmoide, entre otras). Apila miles de estas neuronas en capas, apila docenas de capas de profundidad, y obtienes una red capaz de aprender funciones asombrosamente complejas — desde reconocer caras hasta generar prosa hasta plegar proteínas. La magia no está en ninguna neurona individual (que es matemática trivialmente simple) sino en la composición: las capas se construyen sobre capas, cada una aprendiendo representaciones progresivamente más abstractas de los datos de entrada.
Entrenar una red neuronal significa encontrar los valores correctos para todos esos pesos y sesgos — a menudo miles de millones de ellos. Esto sucede a través de backpropagation y descenso de gradiente. Alimentas la red con una entrada, comparas su salida con la respuesta deseada, calculas qué tan equivocada estuvo (la pérdida), luego trabajas hacia atrás a través de cada capa calculando cómo cada peso contribuyó a ese error. Cada peso se ajusta ligeramente en la dirección que reduce la pérdida. Repite esto miles de millones de veces en todo tu dataset, y la red converge en pesos que producen salidas útiles. El proceso es conceptualmente directo, pero hacerlo funcionar a escala requiere ingeniería cuidadosa: esquemas de learning rate, batch normalization, estrategias de inicialización de pesos y mucha memoria GPU.
La historia importa para entender dónde estamos hoy. Las redes neuronales fueron propuestas por primera vez en los años 1940 y tuvieron su apogeo en los 1960 (perceptrones), seguido de un largo “invierno de IA” cuando cayeron en desuso. El resurgimiento moderno comenzó alrededor de 2012, cuando una red neuronal convolucional profunda llamada AlexNet aplastó la competencia ImageNet por un margen que sorprendió al campo. Lo que cambió no fue la teoría — backpropagation existía desde los 1980 — sino el hardware (los GPUs hicieron el paralelismo masivo accesible) y los datos (internet proporcionó conjuntos de entrenamiento órdenes de magnitud más grandes que cualquier cosa anterior). Cada avance importante de IA desde entonces, desde AlphaGo hasta GPT-4 hasta Sora, ha sido una red neuronal de alguna variedad.
Hoy, el término “red neuronal” cubre una familia extensa de arquitecturas, cada una adecuada para diferentes problemas. Las redes neuronales convolucionales (CNNs) dominan las tareas de imágenes al explotar la estructura espacial. Las redes neuronales recurrentes (RNNs) y sus variantes LSTM eran la opción preferida para datos secuenciales antes de que los Transformers las reemplazaran. Los Transformers, construidos sobre self-attention, impulsan virtualmente todos los LLMs modernos. Los state-space models (SSMs) como Mamba ofrecen una alternativa para secuencias largas con complejidad de tiempo lineal en lugar del costo cuadrático del Transformer. Las graph neural networks manejan estructuras moleculares y redes sociales. Los modelos de difusión (un tipo de red neuronal entrenada para revertir un proceso de ruido) generan imágenes y video. La arquitectura que elijas determina lo que tu modelo puede aprender eficientemente, y elegir la incorrecta para tu problema puede importar más que tener más datos o cómputo.
Una idea errónea persistente es que las redes neuronales funcionan “como el cerebro”. Realmente no lo hacen. Las neuronas biológicas se comunican con pulsos eléctricos temporizados, forman bucles recurrentes, se recablean físicamente y operan en escalas de tiempo y presupuestos energéticos completamente diferentes al silicio. Las redes neuronales artificiales tomaron prestada la metáfora de nodos conectados y luego divergieron casi completamente. Nadie haciendo investigación seria en IA hoy mira papers de neurociencia para diseñar mejores Transformers. La analogía del cerebro es útil para una intuición de cinco segundos (“aprende de ejemplos”) pero engañosa para cualquier cosa más profunda. Lo que las redes neuronales realmente son — aproximadores de funciones diferenciables entrenados por descenso de gradiente — es tanto menos romántico como más precisamente útil de entender.