Zubnet AIAprenderWiki › Modelo de fundação
Fundamentos

Modelo de fundação

Um modelo grande treinado com dados amplos que serve como base para muitas tarefas diferentes. Claude, GPT, Gemini e Llama são todos foundation models. São "fundacionais" porque podem ser adaptados para quase qualquer coisa — escrita, código, análise, compreensão de imagens — sem serem treinados especificamente para cada tarefa.

Por que isso importa

Foundation models mudaram a economia da IA. Em vez de treinar um modelo separado para cada tarefa, você treina um modelo massivo uma vez e depois faz fine-tuning ou prompting para necessidades específicas.

Em profundidade

Um foundation model começa a vida como uma rede neural em branco — bilhões de parâmetros inicializados com valores aleatórios. Durante o pré-treinamento, ele consome datasets enormes (páginas web, livros, repositórios de código, artigos científicos) e aprende a prever o que vem a seguir. Esse objetivo de previsão do próximo token parece enganosamente simples, mas força o modelo a internalizar gramática, fatos, padrões de raciocínio, convenções de código e até certo grau de senso comum. O resultado é uma base de propósito geral que sabe muito sobre muita coisa, sem ser construída especificamente para nenhuma tarefa. GPT-4, Claude, Gemini e Llama começaram como foundation models antes de passar por etapas adicionais de alignment e instruction tuning.

A Mudança do Transfer Learning

A inovação-chave por trás dos foundation models é o transfer learning em escala. Antes desse paradigma, se você queria uma IA para classificar imagens médicas, treinava um classificador de imagens médicas do zero. Se queria uma para resumir contratos jurídicos, treinava um modelo separado com dados jurídicos. Os foundation models inverteram essa equação: treine um modelo com conhecimento amplo e depois adapte-o de forma barata. A adaptação pode ser tão leve quanto escrever um bom prompt (zero-shot), fornecer alguns exemplos no contexto (few-shot) ou fazer fine-tuning em um dataset pequeno e específico da tarefa. É por isso que um único modelo como o Claude pode ajudar a depurar Python, redigir textos de marketing e analisar uma planilha — tudo na mesma conversa.

Forças e Falhas Herdadas

O termo "foundation model" foi cunhado por pesquisadores do Center for Research on Foundation Models (CRFM) de Stanford em 2021 para capturar algo importante: esses modelos são fundações no sentido arquitetônico. Tudo construído sobre eles herda tanto suas forças quanto suas falhas. Se os dados de treinamento contêm vieses, esses vieses se propagam para cada aplicação derivada. Se o modelo alucina, todo produto construído sobre ele pode alucinar. Isso é fundamentalmente diferente de software tradicional, onde bugs são localizados. Com foundation models, uma única lacuna de capacidade ou modo de falha pode se propagar por milhares de aplicações construídas por equipes diferentes que nunca tocaram no processo de treinamento.

A Barreira de Custo

Treinar um foundation model é absurdamente caro — estamos falando de dezenas a centenas de milhões de dólares em compute para os maiores modelos, além do esforço de engenharia para montar e limpar datasets de trilhões de tokens. Isso cria um ecossistema concentrado: apenas um punhado de organizações (Anthropic, OpenAI, Google, Meta, Mistral e algumas outras) podem bancar o treinamento de foundation models de fronteira do zero. Todos os demais constroem por cima. Essa realidade econômica molda toda a indústria — é por isso que o acesso via API se tornou o modelo de implantação dominante, e por que lançamentos open-weights como Llama e Mistral importam tanto para competição e acessibilidade.

Não Apenas Linguagem

Um equívoco comum é que "foundation model" e "LLM" são sinônimos. Eles se sobrepõem bastante, mas não são a mesma coisa. Um foundation model é definido pelo seu papel (base ampla, muitos usos derivados), não pela sua modalidade. Foundation models de visão como o DINOv2, modelos de áudio como o Whisper e modelos multimodais como o Gemini são todos foundation models. Um LLM é um tipo específico — focado em linguagem. A distinção importa porque o paradigma de foundation model está se espalhando bem além do texto, para dobramento de proteínas, robótica, previsão do tempo e descoberta de medicamentos, todos seguindo o mesmo playbook: treine grande com dados amplos, depois adapte.

Conceitos relacionados

← Todos os termos
← Ajuste fino GAN →
ESC