Zubnet AIAprenderWiki › Dataset
Fundamentos

Dataset

Conjunto de Entrenamiento, Datos
Una colección estructurada de datos utilizada para entrenar, evaluar o probar un modelo de machine learning. Los datasets pueden ser etiquetados (cada ejemplo tiene una respuesta correcta conocida) o no etiquetados (datos crudos sin anotaciones). La calidad, tamaño, diversidad y representatividad de un dataset determinan fundamentalmente lo que un modelo puede aprender.

Por qué importa

Basura entra, basura sale. La arquitectura más elegante entrenada con un mal dataset producirá malos resultados. Por el contrario, un modelo simple entrenado con datos excelentes frecuentemente supera a un modelo complejo entrenado con ruido. La curación de datasets es posiblemente la parte más impactante y menos glamorosa del desarrollo de IA.

En profundidad

Los datasets vienen en muchas formas: corpus de texto para modelos de lenguaje, imágenes etiquetadas para clasificadores, pares de pregunta-respuesta para fine-tuning, pares de preferencia para alineación, y datasets de referencia para evaluación. La distinción entre conjunto de entrenamiento (de lo que el modelo aprende), conjunto de validación (lo que guía el ajuste de hiperparámetros) y conjunto de prueba (lo que mide el rendimiento final) es fundamental — evaluar con datos de entrenamiento no tiene sentido porque el modelo los ha memorizado.

La Historia del Escalado de Datos

Los datasets de pre-entrenamiento de LLMs han crecido de millones de tokens (GPT temprano) a billones (modelos modernos). Common Crawl, Wikipedia, libros, repositorios de código, artículos científicos y texto web curado forman la mezcla típica. Pero más datos no siempre es mejor — las leyes de escalado de Chinchilla mostraron que la calidad y cantidad de datos deben escalar junto con el tamaño del modelo. La deduplicación, filtrado de contenido tóxico o de baja calidad, y el balance entre dominios son todos pasos críticos.

El Sesgo Vive en los Datos

Cada dataset lleva los sesgos de sus fuentes. Un modelo entrenado mayormente con texto web en inglés tendrá peor rendimiento en otros idiomas. Un dataset extraído de internet hereda los prejuicios de la sociedad. Este no es un problema que puedas arreglar con la arquitectura — requiere curación cuidadosa de datos, auditoría y mitigación post-entrenamiento. El trabajo más impactante en ética de IA frecuentemente ocurre a nivel del dataset.

Conceptos relacionados

← Todos los términos
← Cómputo en tiempo de inferencia Datos sintéticos →
ESC