Corpus: Definición y significado — Wiki de IA

El cuerpo de texto (u otros datos) usado para entrenar un modelo. Un corpus puede ir desde colecciones curadas de libros y papers hasta scrapes masivos de todo el internet. La calidad y composición del corpus moldea fundamentalmente lo que el modelo sabe y cómo se comporta.

Por qué importa

Basura entra, basura sale. Un modelo entrenado con Reddit habla diferente que uno entrenado con papers científicos. Por eso curamos nuestro propio corpus para Sarah — los web crawls genéricos producían resultados confusos e incoherentes.

En profundidad

Construir un corpus es engañosamente simple en concepto y brutalmente complejo en la práctica. En el nivel más básico, recopilas texto, lo limpias y lo alimentas a un modelo. Pero "limpiar" es donde vive el trabajo real. Los scrapes web crudos contienen páginas duplicadas, texto de navegación boilerplate, spam SEO, errores de codificación, documentos truncados y vastas cantidades de contenido de baja calidad generado por máquinas. Proyectos como Common Crawl proporcionan petabytes de datos web crudos, pero convertir eso en un corpus de entrenamiento utilizable requiere deduplicación agresiva (eliminación de duplicados exactos y cercanos), identificación de idioma, filtrado de calidad y clasificación de contenido. The Pile, RedPajama, FineWeb y DCLM representan cada uno filosofías diferentes sobre cómo hacer este filtrado, y las diferencias de calidad en los modelos resultantes son medibles.

La mezcla de datos

La composición del corpus tiene un impacto directo y a menudo sorprendente en lo que un modelo puede hacer. Si el 80% de tus datos de entrenamiento son en inglés, el modelo será mediocre en francés incluso si el texto en francés está técnicamente presente. Si tu corpus es pesado en código, el modelo mejora en razonamiento estructurado incluso para tareas sin código — este fue uno de los hallazgos inesperados del entrenamiento temprano de Codex en OpenAI. La proporción de diferentes dominios también importa: demasiado texto de redes sociales y el modelo aprende a ser superficial; demasiado texto académico y se vuelve rígido. La mayoría de los laboratorios de frontera tratan su mezcla de datos como un secreto celosamente guardado, porque es una de las pocas ventajas competitivas restantes que no se trata solo de tener más GPU.

De texto a tokens

La tokenización es el puente entre un corpus crudo y lo que el modelo realmente ve. Antes del entrenamiento, cada documento se descompone en tokens — unidades de subpalabras aprendidas por algoritmos como BPE (byte pair encoding) o SentencePiece. El tokenizador se entrena con el propio corpus, así que un corpus pesado en código producirá un tokenizador que representa eficientemente constructos de programación, mientras que un corpus multilingüe produce un tokenizador con mejor cobertura de scripts no latinos. Este paso generalmente se hace una vez y se congela: tokenizas todo el corpus en shards binarios que se pueden cargar eficientemente durante el entrenamiento. Para un corpus grande, esta es en sí una operación de varios días y varios terabytes. Un corpus de 185 mil millones de tokens, por ejemplo, podría producir varios cientos de gigabytes de shards tokenizados.

Calidad vs. cantidad

El debate entre curación y escala es una de las discusiones más importantes en curso en el campo. Durante años, la visión dominante fue que más datos siempre es mejor — simplemente echa todo y deja que el modelo lo resuelva. Pero los resultados empíricos han mostrado repetidamente que un corpus más pequeño y cuidadosamente curado puede superar a uno mucho más grande y ruidoso. La serie Phi de modelos de Microsoft demostró que datos de alta calidad similares a "libros de texto" podían producir modelos pequeños sorprendentemente capaces. En el otro extremo, las leyes de escalado de Chinchilla mostraron que la mayoría de los modelos estaban entrenados con muy pocos datos en relación a su conteo de parámetros. La lección práctica: calidad de datos y cantidad de datos no son intercambiables, y los mejores resultados vienen de acertar en ambos.

Corpus

Por qué importa

En profundidad

La mezcla de datos

De texto a tokens

Calidad vs. cantidad

Conceptos relacionados