Zubnet AIAprenderWiki › Parámetros
Fundamentos

Parámetros

También conocido como: Pesos, parámetros del modelo
Los valores internos que una red neuronal aprende durante el entrenamiento — esencialmente el "conocimiento" del modelo codificado como números. Cuando alguien dice que un modelo tiene "7 mil millones de parámetros", se refiere a 7 mil millones de valores numéricos individuales que se ajustaron durante el entrenamiento para capturar patrones en los datos. Más parámetros generalmente significa mayor capacidad para aprender patrones complejos, pero también más memoria para almacenar y más potencia de cálculo para ejecutar.

Por qué importa

El recuento de parámetros es la abreviatura más común para el tamaño del modelo, y determina directamente cuánta memoria de la GPU necesitas. Un modelo de 7B con precisión de 16 bits necesita ~14 GB de VRAM solo para los pesos. Entender los parámetros te ayuda a estimar costos, elegir hardware y comprender por qué la cuantización (reducir la precisión por parámetro) es tan importante para hacer los modelos accesibles.

En profundidad

Cuando una red neuronal se entrena, está ajustando millones o miles de millones de números organizados en matrices de pesos y sesgos. Cada peso controla cuán fuerte fluye una señal de un neurona a la siguiente; cada sesgo desplaza el umbral de activación. Estos son los parámetros. El entrenamiento funciona mediante descenso por gradiente — el modelo hace una predicción, mide cuán equivocada fue (la pérdida), luego ajusta cada parámetro una cantidad mínima en la dirección que habría hecho que la predicción fuera menos equivocada. Repite esto miles de millones de veces a través de trillones de tokens, y esos parámetros convergen en algo que puede escribir poesía, depurar código o explicar mecánica cuántica. Los parámetros no son una tabla de búsqueda ni una base de datos. Son una representación comprimida, distribuida y pérdida de patrones en los datos de entrenamiento, y ningún solo parámetro "sabe" nada por sí mismo.

La carrera de armas

La historia de la inteligencia artificial moderna puede contarse en términos de cantidad de parámetros. GPT-2 tenía 1.5 mil millones de parámetros en 2019 y la gente pensaba que era peligrosamente capaz. GPT-3 llegó en 2020 con 175 mil millones y redefinió las reglas. Cada salto en la escala desbloqueó capacidades que los modelos más pequeños simplemente no podían igualar — aprendizaje de pocos ejemplos, escritura coherente de larga extensión, razonamiento básico — y los laboratorios compitieron para entrenar modelos cada vez más grandes. Esto no era solo marketing. Las leyes de escalado publicadas por OpenAI y DeepMind mostraron una relación sorprendentemente suave entre cantidad de parámetros, datos de entrenamiento, presupuesto de cálculo y rendimiento del modelo. Más parámetros, entrenados con más datos, con más cálculo, significaba resultados mejor predichos. La carrera de armas era racional, al menos por un tiempo.

Parámetros totales vs. Parámetros activos

No todos los parámetros son iguales, y no todos se activan en cada entrada. Modelos de Mixture-of-Experts (MoE) como Mixtral y (presuntamente) GPT-4 contienen muchos miles de millones de parámetros totales, pero una red de enrutamiento selecciona solo un subconjunto de "expertos" para cada token. Mixtral 8x7B tiene aproximadamente 47 mil millones de parámetros totales pero activa solo alrededor de 13 mil millones por cada paso hacia adelante — dándote la calidad de un modelo mucho más grande a un costo de inferencia de uno más pequeño. Mientras tanto, la investigación de escalado de Chinchilla de DeepMind en 2022 volcó por completo la suposición de que "más es siempre mejor". Mostraron que la mayoría de los modelos grandes estaban subentrenados: un modelo más pequeño entrenado con significativamente más datos podía superar a un modelo más grande entrenado con menos. Chinchilla, con 70 mil millones de parámetros entrenados en 1.4 billones de tokens, superó al Gopher de 280 mil millones de parámetros. La lección fue que la cantidad de parámetros sola te dice muy poco sin saber cuántos datos y cálculos se usaron para entrenar.

La matemática de la VRAM

Los parámetros tienen un costo directo e inevitable en la memoria de la GPU. Cada parámetro almacenado en fp16 (punto flotante de 16 bits) o bf16 toma 2 bytes. Por lo tanto, un modelo de 7 mil millones de parámetros necesita aproximadamente 14 GB de VRAM solo para almacenar los pesos — antes de considerar cualquier otra cosa. Cuantizar a int8 (enteros de 8 bits) reduce eso a 7 GB; ir a 4 bits te lleva a alrededor de 3.5 GB. Eso es inferencia. El entrenamiento es un asunto completamente diferente, porque también necesitas almacenar gradientes (del mismo tamaño que los parámetros), estados del optimizador (a menudo 2 veces el tamaño de los parámetros para Adam) y activaciones para la retropropagación. Una regla de dedo aproximada: entrenar un modelo en precisión mixta requiere al menos 4 a 6 bytes por parámetro y puede llegar a 16 a 20 bytes por parámetro con estado completo del optimizador y sin optimizaciones de memoria. Por eso un modelo de 7B que se ejecuta cómodamente en una sola GPU de consumo para inferencia requiere un cluster de GPUs de centro de datos para entrenamiento.

Más allá del conteo bruto

La industria ha superado en gran medida la creencia de que apilar más parámetros es el camino principal hacia modelos mejores. La evidencia se acumuló desde múltiples direcciones: Chinchilla demostró que la cantidad de datos importaba tanto como el tamaño del modelo, modelos con pesos abiertos como Llama 3 y Qwen 2.5 mostraron que una cuidadosa curación de datos y un entrenamiento más largo podía hacer que modelos de 70B fueran competitivos con modelos mucho más grandes, y innovaciones en arquitectura como MoE, modelos de espacio de estados y mecanismos de atención mejorados entregaron un mejor rendimiento por parámetro que el escalado bruto. La frontera actual se trata de eficiencia de entrenamiento, calidad de datos y técnicas post-entrenamiento como RLHF y distilación — no solo de hacer que el contador de parámetros suba. El conteo de parámetros aún importa como una proxy aproximada de capacidad, pero es cada vez la cosa menos interesante de un modelo.

Conceptos relacionados

← Todos los términos
← Sobreajuste Perplexity →
ESC