神經網路學習在其輸入中偵測的模式或概念。在視覺中,早期層的特徵是邊緣和紋理;後期層的特徵是物體部件和完整物體。在語言模型中,特徵從簡單的(字母「a」、特定語法模式)到抽象的(諷刺的概念、特定推理策略)不等。特徵被表示為跨神經元的啟動模式。
特徵是模型實際學到的東西 — 不是個別事實而是可泛化的模式。模型不會死記「貓有毛」;它學習一個毛皮紋理的特徵偵測器,該偵測器會對貓、狗和泰迪熊啟動。理解特徵有助於解釋模型行為:為什麼它能泛化(特徵遷移)、為什麼它會失敗(錯誤的特徵被啟動),以及如何改進它(讓它接觸更多樣的特徵)。
「特徵」一詞在不同語境中有不同的含義。在經典 ML 中,特徵是手工設計的輸入變數(身高、體重、年齡)。在深度學習中,特徵是隱藏層中學習到的表示 — 模型自行發現有用的模式。這種從手工設計特徵到學習特徵的轉變是深度學習的核心創新,也是它在視覺和語言等複雜任務上優於經典 ML 的原因。
深層網路學習層級特徵:每一層建立在前一層的基礎上。在視覺模型中:第 1 層偵測邊緣,第 2 層將邊緣組合成紋理和角落,第 3 層將紋理組合成物體部件(眼睛、車輪),第 4 層將部件組合成物體(臉部、汽車)。這種層級結構自動從訓練中出現 — 沒有人對其進行程式設計。同樣的層級特徵學習發生在語言模型中,從字元模式到語法到語意到推理。
研究人員透過視覺化特徵來理解模型學到了什麼。對於視覺模型,你可以生成最大程度啟動特定神經元或方向的圖像,揭示它偵測的模式。對於語言模型,你可以找到最大程度啟動特定特徵方向的文本範例。Anthropic 的研究已經視覺化了 Claude 中的特徵,發現了像「金門大橋」、「程式碼錯誤」、「欺騙」和「法語」這樣的可解讀概念,作為模型啟動空間中的特定方向被編碼。