Um foundation model começa a vida como uma rede neural em branco — bilhões de parâmetros inicializados com valores aleatórios. Durante o pré-treinamento, ele consome datasets enormes (páginas web, livros, repositórios de código, artigos científicos) e aprende a prever o que vem a seguir. Esse objetivo de previsão do próximo token parece enganosamente simples, mas força o modelo a internalizar gramática, fatos, padrões de raciocínio, convenções de código e até certo grau de senso comum. O resultado é uma base de propósito geral que sabe muito sobre muita coisa, sem ser construída especificamente para nenhuma tarefa. GPT-4, Claude, Gemini e Llama começaram como foundation models antes de passar por etapas adicionais de alignment e instruction tuning.
A inovação-chave por trás dos foundation models é o transfer learning em escala. Antes desse paradigma, se você queria uma IA para classificar imagens médicas, treinava um classificador de imagens médicas do zero. Se queria uma para resumir contratos jurídicos, treinava um modelo separado com dados jurídicos. Os foundation models inverteram essa equação: treine um modelo com conhecimento amplo e depois adapte-o de forma barata. A adaptação pode ser tão leve quanto escrever um bom prompt (zero-shot), fornecer alguns exemplos no contexto (few-shot) ou fazer fine-tuning em um dataset pequeno e específico da tarefa. É por isso que um único modelo como o Claude pode ajudar a depurar Python, redigir textos de marketing e analisar uma planilha — tudo na mesma conversa.
O termo "foundation model" foi cunhado por pesquisadores do Center for Research on Foundation Models (CRFM) de Stanford em 2021 para capturar algo importante: esses modelos são fundações no sentido arquitetônico. Tudo construído sobre eles herda tanto suas forças quanto suas falhas. Se os dados de treinamento contêm vieses, esses vieses se propagam para cada aplicação derivada. Se o modelo alucina, todo produto construído sobre ele pode alucinar. Isso é fundamentalmente diferente de software tradicional, onde bugs são localizados. Com foundation models, uma única lacuna de capacidade ou modo de falha pode se propagar por milhares de aplicações construídas por equipes diferentes que nunca tocaram no processo de treinamento.
Treinar um foundation model é absurdamente caro — estamos falando de dezenas a centenas de milhões de dólares em compute para os maiores modelos, além do esforço de engenharia para montar e limpar datasets de trilhões de tokens. Isso cria um ecossistema concentrado: apenas um punhado de organizações (Anthropic, OpenAI, Google, Meta, Mistral e algumas outras) podem bancar o treinamento de foundation models de fronteira do zero. Todos os demais constroem por cima. Essa realidade econômica molda toda a indústria — é por isso que o acesso via API se tornou o modelo de implantação dominante, e por que lançamentos open-weights como Llama e Mistral importam tanto para competição e acessibilidade.
Um equívoco comum é que "foundation model" e "LLM" são sinônimos. Eles se sobrepõem bastante, mas não são a mesma coisa. Um foundation model é definido pelo seu papel (base ampla, muitos usos derivados), não pela sua modalidade. Foundation models de visão como o DINOv2, modelos de áudio como o Whisper e modelos multimodais como o Gemini são todos foundation models. Um LLM é um tipo específico — focado em linguagem. A distinção importa porque o paradigma de foundation model está se espalhando bem além do texto, para dobramento de proteínas, robótica, previsão do tempo e descoberta de medicamentos, todos seguindo o mesmo playbook: treine grande com dados amplos, depois adapte.