El término "característica" tiene diferentes significados según el contexto. En ML clásico, las características son variables de entrada diseñadas a mano (altura, peso, edad). En deep learning, las características son representaciones aprendidas en las capas ocultas — el modelo descubre patrones útiles por sí mismo. Este cambio de características diseñadas a mano a características aprendidas es la innovación central del deep learning y la razón por la que supera al ML clásico en tareas complejas como visión y lenguaje.
Las redes profundas aprenden características jerárquicas: cada capa se construye sobre la anterior. En un modelo de visión: la capa 1 detecta bordes, la capa 2 combina bordes en texturas y esquinas, la capa 3 combina texturas en partes de objetos (ojos, ruedas), la capa 4 combina partes en objetos (rostros, autos). Esta jerarquía emerge automáticamente del entrenamiento — nadie la programa. El mismo aprendizaje jerárquico de características ocurre en los modelos de lenguaje, desde patrones de caracteres hasta sintaxis, semántica y razonamiento.
Los investigadores visualizan las características para entender qué aprenden los modelos. Para modelos de visión, puedes generar imágenes que activen al máximo una neurona o dirección específica, revelando qué patrón detecta. Para modelos de lenguaje, puedes encontrar los ejemplos de texto que más activan una dirección de característica específica. La investigación de Anthropic ha visualizado características en Claude, encontrando conceptos interpretables como "Golden Gate Bridge", "bugs de código", "engaño" e "idioma francés" codificados como direcciones específicas en el espacio de activaciones del modelo.