Aprendizaje por Transferencia: Definición y significado — Wiki de IA

Usar conocimiento aprendido de una tarea o dataset para mejorar el rendimiento en una tarea diferente pero relacionada. En lugar de entrenar desde cero cada vez, comienzas con un modelo que ya entiende patrones generales (estructura del lenguaje, características visuales) y lo adaptas a tu necesidad específica. Pre-entrenar y luego hacer fine-tuning es el paradigma dominante en la IA moderna.

Por qué importa

El aprendizaje por transferencia es la razón por la que la IA se volvió práctica. Entrenar un modelo de lenguaje desde cero cuesta millones de dólares. Hacer fine-tuning de un modelo pre-entrenado para tu tarea específica cuesta decenas de dólares y unas pocas horas. Esta economía es lo que permitió la explosión de aplicaciones de IA — no necesitas el presupuesto de Google para construir algo útil.

En profundidad

La idea clave: las características de bajo nivel se transfieren entre tareas. Un modelo de visión entrenado en ImageNet aprende a detectar bordes, texturas y formas en sus primeras capas — características útiles para casi cualquier tarea visual. Un modelo de lenguaje entrenado con texto web aprende gramática, hechos y patrones de razonamiento útiles para casi cualquier tarea lingüística. El aprendizaje por transferencia aprovecha esto reutilizando el conocimiento general y entrenando solo las partes específicas de la tarea.

El Paradigma Pre-entrenar + Fine-tune

Casi todos los sistemas de IA actuales siguen este patrón: (1) pre-entrenar un modelo grande con un dataset masivo y general (caro, se hace una vez), (2) hacer fine-tuning con un dataset más pequeño y específico de la tarea (barato, se hace muchas veces). BERT fue pionero en esto para NLP en 2018. GPT lo escaló. Toda la industria de LLMs está construida sobre este paradigma — los modelos fundacionales son la base pre-entrenada, y el fine-tuning (incluyendo RLHF/DPO) es cómo se convierten en asistentes útiles.

Cuando la Transferencia Falla

El aprendizaje por transferencia funciona mejor cuando los dominios de origen y destino están relacionados. Un modelo pre-entrenado con texto en inglés se transfiere bien al francés (estructura similar) pero mal a secuencias de proteínas (dominio completamente diferente). Cuando los dominios son demasiado diferentes, la transferencia puede realmente perjudicar el rendimiento ("transferencia negativa"). El pre-entrenamiento específico de dominio (como BioGPT para texto biomédico o CodeLlama para código) aborda esto pre-entrenando con datos relevantes del dominio.

Aprendizaje por Transferencia

Por qué importa

En profundidad

El Paradigma Pre-entrenar + Fine-tune

Cuando la Transferencia Falla

Conceptos relacionados