Modelo de fundamento: Definición y significado — Wiki de IA

Un modelo grande entrenado con datos amplios que sirve como base para muchas tareas diferentes. Claude, GPT, Gemini y Llama son todos foundation models. Son “fundacionales” porque pueden adaptarse a casi cualquier cosa — escritura, programación, análisis, comprensión de imágenes — sin haber sido entrenados específicamente para cada tarea.

Por qué importa

Los foundation models cambiaron la economía de la IA. En lugar de entrenar un modelo separado para cada tarea, entrenas un modelo masivo una vez y luego le haces fine-tuning o lo guías con prompts para necesidades específicas.

En profundidad

Un foundation model comienza su vida como una red neuronal en blanco — miles de millones de parámetros inicializados con valores aleatorios. Durante el pre-entrenamiento, consume datasets enormes (páginas web, libros, repositorios de código, artículos científicos) y aprende a predecir qué viene después. Este objetivo de next-token prediction suena engañosamente simple, pero obliga al modelo a internalizar gramática, hechos, patrones de razonamiento, convenciones de programación e incluso cierto grado de sentido común. El resultado es una base de propósito general que sabe mucho sobre muchas cosas, sin haber sido construida específicamente para ninguna tarea en particular. GPT-4, Claude, Gemini y Llama comenzaron como foundation models antes de pasar por etapas adicionales de alignment e instruction-tuning.

El cambio del transfer learning

La innovación clave detrás de los foundation models es el transfer learning a escala. Antes de este paradigma, si querías una IA que clasificara imágenes médicas, entrenabas un clasificador de imágenes médicas desde cero. Si querías una que resumiera contratos legales, entrenabas un modelo separado con datos legales. Los foundation models invirtieron esa ecuación: entrena un solo modelo con conocimiento amplio y luego adáptalo de forma económica. La adaptación puede ser tan ligera como escribir un buen prompt (zero-shot), proporcionar unos pocos ejemplos en contexto (few-shot) o hacer fine-tuning con un dataset pequeño y específico. Por eso un modelo como Claude puede ayudarte a depurar Python, redactar copy de marketing y analizar una hoja de cálculo — todo en la misma conversación.

Fortalezas y fallas heredadas

El término “foundation model” fue acuñado por investigadores del Center for Research on Foundation Models (CRFM) de Stanford en 2021 para capturar algo importante: estos modelos son fundaciones en el sentido arquitectónico. Todo lo que se construye encima hereda tanto sus fortalezas como sus fallas. Si los datos de entrenamiento contienen sesgos, esos sesgos se propagan a cada aplicación derivada. Si el modelo alucina, cada producto construido sobre él puede alucinar. Esto es fundamentalmente diferente al software tradicional, donde los bugs están localizados. Con los foundation models, una sola brecha de capacidad o modo de falla puede propagarse a través de miles de aplicaciones construidas por equipos diferentes que nunca tocaron el proceso de entrenamiento.

La barrera de costo

Entrenar un foundation model es asombrosamente caro — estamos hablando de decenas a cientos de millones de dólares en cómputo para los modelos más grandes, más el esfuerzo de ingeniería de reunir y limpiar datasets de billones de tokens. Esto crea un ecosistema concentrado: solo un puñado de organizaciones (Anthropic, OpenAI, Google, Meta, Mistral y unas pocas más) pueden permitirse entrenar foundation models de frontera desde cero. Todos los demás construyen encima. Esa realidad económica moldea toda la industria — es por eso que el acceso basado en APIs se convirtió en el modelo de despliegue dominante, y por qué los lanzamientos open-weights como Llama y Mistral importan tanto para la competencia y la accesibilidad.

No solo lenguaje

Una confusión común es que “foundation model” y “LLM” son sinónimos. Se superponen mucho, pero no son lo mismo. Un foundation model se define por su rol (base amplia, muchos usos derivados), no por su modalidad. Modelos de visión fundacionales como DINOv2, modelos de audio como Whisper y modelos multimodales como Gemini son todos foundation models. Un LLM es un tipo específico — uno enfocado en lenguaje. La distinción importa porque el paradigma de foundation model se está expandiendo mucho más allá del texto, hacia plegamiento de proteínas, robótica, pronóstico del clima y descubrimiento de fármacos, todos siguiendo el mismo manual: entrena en grande con datos amplios, luego adapta.

Modelo de fundamento