El aprendizaje automático se divide en tres paradigmas, y conocer cuál aplica te salva de recurrir a la herramienta equivocada. El aprendizaje supervisado es el caballo de batalla: le das al modelo ejemplos etiquetados (este correo es spam, este no lo es) y aprende una mapeo de entrada a salida. Clasificación, regresión, traducción, generación de títulos de imágenes — si tienes datos etiquetados, es casi seguro que empezarás con aprendizaje supervisado. El aprendizaje no supervisado funciona sin etiquetas: encuentra estructura por sí mismo. Agrupar clientes según su comportamiento de compra, reducir un conjunto de datos de 10,000 características a sus dimensiones más informativas, detectar tráfico de red anómalo que no coincide con ningún patrón conocido. Lo usas cuando no sabes qué estás buscando, lo cual ocurre con más frecuencia de lo que la gente admite. El aprendizaje por refuerzo es el que se sale del molde — el modelo aprende por ensayo y error, recibiendo recompensas o penalizaciones por sus acciones. Es así como AlphaGo venció al campeón mundial, como los robots aprenden a caminar y como RLHF alinea los LLMs con las preferencias humanas. También es notoriamente difícil de hacer bien, razón por la que la mayoría del ML en producción sigue siendo supervisado.
Existe una mitología persistente de que el aprendizaje profundo ha hecho obsoleto el ML clásico. No es así. La regresión logística sigue superando a un Transformer cuando tienes 500 filas de datos tabulares, un conjunto claro de características y la necesidad de explicar tus predicciones a un regulador. Los bosques aleatorios y los árboles de regresión por gradiente (XGBoost, LightGBM) dominan las competencias de Kaggle en datos estructurados por una razón — son rápidos de entrenar, difíciles de sobreajustar y su importancia de características es interpretable. El aprendizaje profundo brilla cuando los datos son no estructurados (imágenes, texto, audio, video) y las características son demasiado complejas para diseñarlas a mano. Nadie escribe filtros de detección de bordes ahora porque las redes convolucionales aprenden mejores. Nadie escribe reglas de gramática para traducción porque los Transformers aprenden el mapeo de extremo a extremo. La habilidad está en saber en qué régimen estás. Si tus datos caben en una hoja de cálculo, prueba XGBoost primero. Si no, es cuando las redes neuronales ganan su complejidad.
Cada proyecto de ML sigue el mismo ciclo, ya estés entrenando un filtro de spam o un LLM de 400,000 millones de parámetros. Empiezas con datos — recolectándolos, limpiándolos, dividiéndolos en conjuntos de entrenamiento y prueba. Luego extraes o aprendes características: en ML clásico, esto significa diseñarlas a mano (contadores de palabras, histogramas de píxeles, características de fechas); en aprendizaje profundo, el modelo aprende sus propias características desde la entrada cruda. Elegis una arquitectura de modelo, lo entrenas minimizando una función de pérdida en los datos de entrenamiento, luego lo evalúas en datos de prueba para ver si generaliza realmente. Casi nunca funciona la primera vez. Así que iteras — más datos, mejores características, hiperparámetros diferentes, una arquitectura completamente diferente. La brecha entre una tubería de ML de texto y un sistema de producción es principalmente este ciclo, corrido cientos de veces con experimentos cada vez más desesperados hasta que algo funcione lo suficientemente bien para lanzarlo.
Las ideas detrás del aprendizaje automático no son nuevas. La retropropagación se entendió en la década de 1980. Los SVM y los bosques aleatorios estaban maduros para principios de la década de 2000. Lo que cambió es que tres cosas convergieron al mismo tiempo. Primero, datos: internet generó más datos etiquetados y no etiquetados de lo que nadie sabía qué hacer. Segundo, cómputo: los GPUs resultaron accidentalmente perfectos para las multiplicaciones de matrices que necesitan las redes neuronales, y los proveedores de nube hicieron disponibles esos GPUs por hora. Tercero, algoritmos: la normalización por lotes, el dropout, los mecanismos de atención y mejores optimizadores hicieron posible entrenar redes que antes eran demasiado profundas y inestables para converger. Ninguno de estos tres factores por sí solo habría sido suficiente. Existían muchos datos en la década de 1990, pero nadie tenía el cómputo para entrenarlos. Los GPUs existían en la década de 2000, pero los trucos algorítmicos para entrenar redes de cien capas aún no se habían descubierto. Se necesitó que los tres llegaran juntos para desencadenar la ola actual — y es la razón por la que el ML pasó de ser una curiosidad académica a la sector tecnológico más financiado del planeta en menos de una década.