कृत्रिम न्यूरॉन जैविक न्यूरॉन से शिथिल रूप से प्रेरित है लेकिन इसे शाब्दिक सादृश्य नहीं मानना चाहिए। एक जैविक न्यूरॉन डेंड्राइट्स के माध्यम से विद्युत संकेत प्राप्त करता है, उन्हें कोशिका शरीर में एकीकृत करता है, और एक्सॉन के माध्यम से फायर करता है (या नहीं)। एक कृत्रिम न्यूरॉन गणना करता है: output = activation(w1·x1 + w2·x2 + ... + wn·xn + bias)। भार (w) निर्धारित करते हैं कि प्रत्येक इनपुट कितना मायने रखता है। बायस एक्टिवेशन थ्रेशोल्ड को शिफ्ट करता है। एक्टिवेशन फ़ंक्शन (ReLU, GELU) गैर-रैखिकता जोड़ता है।
Perceptron (Rosenblatt, 1958) पहला कृत्रिम न्यूरॉन था — एक एकल इकाई जो रैखिक रूप से अलग किए जा सकने वाले डेटा को वर्गीकृत करना सीख सकती थी। Minsky और Papert ने 1969 में दिखाया कि एक अकेला perceptron XOR (एक सरल गैर-रैखिक फ़ंक्शन) नहीं सीख सकता, जिसने पहले AI विंटर में योगदान दिया। समाधान: न्यूरॉनों की कई परतें स्टैक करें (मल्टी-लेयर perceptrons / MLPs), जो पर्याप्त न्यूरॉन होने पर कोई भी फ़ंक्शन सीख सकते हैं। यह सार्वभौमिक अनुमान प्रमेय (universal approximation theorem) है — डीप लर्निंग की सैद्धांतिक नींव।
Llama-70B जैसे मॉडल में लगभग 70 अरब पैरामीटर (न्यूरॉनों को जोड़ने वाले भार और बायस) होते हैं। प्रत्येक feedforward परत में हज़ारों न्यूरॉन होते हैं। लेकिन आधुनिक शोध दर्शाता है कि व्यक्तिगत न्यूरॉन अक्सर एकल अवधारणाओं के अनुरूप नहीं होते — इसके बजाय, अवधारणाएँ कई न्यूरॉनों में एक्टिवेशन स्पेस में दिशाओं के रूप में एन्कोड होती हैं (superposition)। एक अकेला न्यूरॉन दर्जनों विभिन्न विशेषताओं को एन्कोड करने में भाग ले सकता है, जिससे व्याख्या चुनौतीपूर्ण हो जाती है।