Transfer Learning: Definição e significado — Wiki de IA

Usar conhecimento aprendido em uma tarefa ou dataset para melhorar o desempenho em uma tarefa diferente mas relacionada. Em vez de treinar do zero toda vez, você começa com um modelo que já entende padrões gerais (estrutura de linguagem, características visuais) e o adapta à sua necessidade específica. Pré-treinamento seguido de fine-tuning é o paradigma dominante na IA moderna.

Por que isso importa

Transfer learning é o motivo pelo qual a IA se tornou prática. Treinar um modelo de linguagem do zero custa milhões de dólares. Fazer fine-tuning em um modelo pré-treinado para sua tarefa específica custa dezenas de dólares e algumas horas. Essa economia é o que possibilitou a explosão de aplicações de IA — você não precisa do orçamento do Google para construir algo útil.

Em profundidade

O insight chave: características de baixo nível se transferem entre tarefas. Um modelo de visão treinado no ImageNet aprende a detectar bordas, texturas e formas em suas camadas iniciais — características úteis para quase qualquer tarefa visual. Um modelo de linguagem treinado em texto web aprende gramática, fatos e padrões de raciocínio úteis para quase qualquer tarefa de linguagem. Transfer learning explora isso reutilizando o conhecimento geral e treinando apenas as partes específicas da tarefa.

O Paradigma Pré-treinar + Fine-tuning

Quase todo sistema de IA hoje segue esse padrão: (1) pré-treinar um modelo grande em um dataset massivo e geral (caro, feito uma vez), (2) fazer fine-tuning em um dataset menor e específico da tarefa (barato, feito muitas vezes). O BERT pioneirou isso para NLP em 2018. O GPT escalou. Toda a indústria de LLMs é construída sobre esse paradigma — foundation models são a base pré-treinada, e fine-tuning (incluindo RLHF/DPO) é como eles se tornam assistentes úteis.

Quando a Transferência Falha

Transfer learning funciona melhor quando os domínios de origem e destino são relacionados. Um modelo pré-treinado em texto em inglês transfere bem para francês (estrutura similar) mas mal para sequências de proteínas (domínio completamente diferente). Quando os domínios são diferentes demais, a transferência pode na verdade prejudicar o desempenho ("transferência negativa"). Pré-treinamento específico de domínio (como BioGPT para texto biomédico ou CodeLlama para código) resolve isso com pré-treinamento em dados relevantes ao domínio.

Transfer Learning

Por que isso importa

Em profundidade

O Paradigma Pré-treinar + Fine-tuning

Quando a Transferência Falha

Conceitos relacionados