O neurônio artificial é vagamente inspirado nos neurônios biológicos, mas não deve ser tomado como uma analogia literal. Um neurônio biológico recebe sinais elétricos pelos dendritos, integra-os no corpo celular e dispara (ou não) pelo axônio. Um neurônio artificial computa: saída = ativação(w1·x1 + w2·x2 + ... + wn·xn + viés). Os pesos (w) determinam quanto cada entrada importa. O viés desloca o limiar de ativação. A função de ativação (ReLU, GELU) introduz não-linearidade.
O perceptron (Rosenblatt, 1958) foi o primeiro neurônio artificial — uma única unidade capaz de aprender a classificar dados linearmente separáveis. Minsky e Papert mostraram em 1969 que um único perceptron não conseguia aprender XOR (uma função não-linear simples), contribuindo para o primeiro inverno da IA. A solução: empilhar múltiplas camadas de neurônios (perceptrons multicamadas / MLPs), que podem aprender qualquer função com neurônios suficientes. Este é o teorema da aproximação universal — a base teórica do deep learning.
Um modelo como o Llama-70B tem aproximadamente 70 bilhões de parâmetros (pesos e vieses conectando neurônios). Cada camada feedforward tem milhares de neurônios. Mas pesquisas modernas mostram que neurônios individuais frequentemente não correspondem a conceitos únicos — em vez disso, conceitos são codificados como direções no espaço de ativação através de muitos neurônios (superposição). Um único neurônio pode participar na codificação de dezenas de características diferentes, tornando a interpretação desafiadora.