El bucle central es: predecir → comparar con la etiqueta → calcular la pérdida → ajustar parámetros. El preentrenamiento de LLMs es técnicamente auto-supervisado, pero el fine-tuning y el RLHF usan señales supervisadas.
La trampa del aprendizaje supervisado es la necesidad de datos etiquetados, que son caros y lentos de producir. Etiquetar miles de ejemplos a mano requiere experiencia en el dominio, y los errores en las etiquetas se propagan directamente al modelo. Por eso el aprendizaje auto-supervisado fue una revolución — eliminó la dependencia de las etiquetas manuales para el preentrenamiento.
El aprendizaje supervisado no es solo clasificar cosas en categorías. Abarca regresión (predecir valores numéricos), detección de objetos (localizar cosas en imágenes), traducción (secuencia a secuencia) y cualquier tarea donde puedas definir un par de entrada-salida con una respuesta correcta clara. La clave es la señal de supervisión — el modelo sabe lo que debería haber producido.