O termo "feature" tem significados diferentes dependendo do contexto. No ML clássico, features são variáveis de entrada projetadas manualmente (altura, peso, idade). No deep learning, features são representações aprendidas em camadas ocultas — o modelo descobre padrões úteis por conta própria. Essa mudança de features projetadas manualmente para features aprendidas é a inovação central do deep learning e a razão pela qual ele supera o ML clássico em tarefas complexas como visão e linguagem.
Redes profundas aprendem features hierárquicas: cada camada constrói sobre a anterior. Em um modelo de visão: camada 1 detecta bordas, camada 2 combina bordas em texturas e cantos, camada 3 combina texturas em partes de objetos (olhos, rodas), camada 4 combina partes em objetos (rostos, carros). Essa hierarquia emerge automaticamente do treinamento — ninguém a programa. O mesmo aprendizado hierárquico de features acontece em modelos de linguagem, de padrões de caracteres a sintaxe, semântica e raciocínio.
Pesquisadores visualizam features para entender o que modelos aprendem. Para modelos de visão, você pode gerar imagens que maximamente ativam um neurônio ou direção específica, revelando que padrão ele detecta. Para modelos de linguagem, você pode encontrar exemplos de texto que mais ativam uma direção de feature específica. A pesquisa da Anthropic visualizou features no Claude, encontrando conceitos interpretáveis como "Golden Gate Bridge", "bugs de código", "engano" e "idioma francês" codificados como direções específicas no espaço de ativação do modelo.