“特征”一词在不同语境中有不同含义。在经典机器学习中,特征是手工设计的输入变量(身高、体重、年龄)。在深度学习中,特征是隐藏层中的学习表示——模型自行发现有用的模式。这种从手工设计到学习特征的转变是深度学习的核心创新,也是它在视觉和语言等复杂任务上超越经典ML的原因。
深度网络学习层次化特征:每层建立在前一层的基础上。在视觉模型中:第1层检测边缘,第2层将边缘组合成纹理和角落,第3层将纹理组合成物体部分(眼睛、车轮),第4层将部分组合成物体(面孔、汽车)。这种层次结构从训练中自动涌现——没有人编程它。同样的层次化特征学习在语言模型中也发生,从字符模式到语法到语义到推理。
研究人员可视化特征以理解模型学到了什么。对于视觉模型,你可以生成最大激活特定神经元或方向的图像,揭示它检测的模式。对于语言模型,你可以找到最大激活特定特征方向的文本示例。Anthropic的研究已在Claude中可视化了特征,发现了“金门大桥”、“代码bug”、“欺骗”和“法语语言”等可解释概念被编码为模型激活空间中的特定方向。