Los datasets vienen en muchas formas: corpus de texto para modelos de lenguaje, imágenes etiquetadas para clasificadores, pares de pregunta-respuesta para fine-tuning, pares de preferencia para alineación, y datasets de referencia para evaluación. La distinción entre conjunto de entrenamiento (de lo que el modelo aprende), conjunto de validación (lo que guía el ajuste de hiperparámetros) y conjunto de prueba (lo que mide el rendimiento final) es fundamental — evaluar con datos de entrenamiento no tiene sentido porque el modelo los ha memorizado.
Los datasets de pre-entrenamiento de LLMs han crecido de millones de tokens (GPT temprano) a billones (modelos modernos). Common Crawl, Wikipedia, libros, repositorios de código, artículos científicos y texto web curado forman la mezcla típica. Pero más datos no siempre es mejor — las leyes de escalado de Chinchilla mostraron que la calidad y cantidad de datos deben escalar junto con el tamaño del modelo. La deduplicación, filtrado de contenido tóxico o de baja calidad, y el balance entre dominios son todos pasos críticos.
Cada dataset lleva los sesgos de sus fuentes. Un modelo entrenado mayormente con texto web en inglés tendrá peor rendimiento en otros idiomas. Un dataset extraído de internet hereda los prejuicios de la sociedad. Este no es un problema que puedas arreglar con la arquitectura — requiere curación cuidadosa de datos, auditoría y mitigación post-entrenamiento. El trabajo más impactante en ética de IA frecuentemente ocurre a nivel del dataset.