La neurona artificial está vagamente inspirada en las neuronas biológicas, pero no debe tomarse como una analogía literal. Una neurona biológica recibe señales eléctricas a través de las dendritas, las integra en el cuerpo celular y dispara (o no) a través del axón. Una neurona artificial calcula: salida = activación(w1·x1 + w2·x2 + ... + wn·xn + sesgo). Los pesos (w) determinan cuánto importa cada entrada. El sesgo desplaza el umbral de activación. La función de activación (ReLU, GELU) introduce no linealidad.
El perceptrón (Rosenblatt, 1958) fue la primera neurona artificial — una unidad individual que podía aprender a clasificar datos linealmente separables. Minsky y Papert demostraron en 1969 que un solo perceptrón no podía aprender XOR (una función no lineal simple), contribuyendo al primer invierno de la IA. La solución: apilar múltiples capas de neuronas (perceptrones multicapa / MLPs), que pueden aprender cualquier función con suficientes neuronas. Este es el teorema de aproximación universal — la base teórica del deep learning.
Un modelo como Llama-70B tiene aproximadamente 70 mil millones de parámetros (pesos y sesgos que conectan neuronas). Cada capa feedforward tiene miles de neuronas. Pero la investigación moderna muestra que las neuronas individuales a menudo no corresponden a conceptos individuales — en cambio, los conceptos se codifican como direcciones en el espacio de activaciones a través de muchas neuronas (superposición). Una sola neurona podría participar en la codificación de docenas de características diferentes, lo que hace difícil la interpretación.