"विशेषता" शब्द का अर्थ संदर्भ के अनुसार भिन्न होता है। शास्त्रीय ML में, विशेषताएँ हाथ से इंजीनियर किए गए इनपुट चर हैं (ऊँचाई, वज़न, आयु)। डीप लर्निंग में, विशेषताएँ hidden परतों में सीखे गए प्रतिनिधित्व हैं — मॉडल स्वयं उपयोगी पैटर्न खोजता है। हाथ से इंजीनियर से सीखी गई विशेषताओं की ओर यह बदलाव डीप लर्निंग का मूल नवाचार है और यही कारण है कि यह विज़न और भाषा जैसे जटिल कार्यों पर शास्त्रीय ML से बेहतर प्रदर्शन करता है।
गहरे नेटवर्क पदानुक्रमिक विशेषताएँ सीखते हैं: प्रत्येक परत पिछली पर निर्माण करती है। विज़न मॉडल में: परत 1 किनारों का पता लगाती है, परत 2 किनारों को बनावट और कोनों में संयोजित करती है, परत 3 बनावट को वस्तु भागों (आँखें, पहिये) में संयोजित करती है, परत 4 भागों को वस्तुओं (चेहरे, कारें) में संयोजित करती है। यह पदानुक्रम प्रशिक्षण से स्वचालित रूप से उभरता है — कोई इसे प्रोग्राम नहीं करता। समान पदानुक्रमिक विशेषता शिक्षण भाषा मॉडलों में भी होता है, अक्षर पैटर्न से वाक्य-विन्यास से अर्थविज्ञान से तर्क तक।
शोधकर्ता यह समझने के लिए विशेषताओं को दृश्यीकृत करते हैं कि मॉडल क्या सीखते हैं। विज़न मॉडलों के लिए, आप ऐसी छवियाँ उत्पन्न कर सकते हैं जो एक विशिष्ट न्यूरॉन या दिशा को अधिकतम सक्रिय करती हैं, जिससे पता चलता है कि वह कौन सा पैटर्न पहचानता है। भाषा मॉडलों के लिए, आप वे टेक्स्ट उदाहरण खोज सकते हैं जो एक विशिष्ट विशेषता दिशा को सबसे अधिक सक्रिय करते हैं। Anthropic के शोध ने Claude में "Golden Gate Bridge," "कोड बग," "छल," और "फ्रेंच भाषा" जैसी व्याख्या योग्य अवधारणाओं को मॉडल के एक्टिवेशन स्पेस में विशिष्ट दिशाओं के रूप में एन्कोड पाया है।