Un clasificador produce una distribución de probabilidad sobre las clases. Para clasificación binaria, un solo número entre 0 y 1 basta (la probabilidad de la clase positiva). Para multi-clase, el modelo produce una probabilidad para cada clase, típicamente usando una función softmax para asegurar que sumen 1. La clase predicha es usualmente la que tiene la probabilidad más alta, pero puedes ajustar el umbral de decisión según tu tolerancia a los falsos positivos vs. falsos negativos.
Los LLMs modernos son clasificadores sorprendentemente buenos. En lugar de entrenar un modelo dedicado, puedes hacer un prompt a un LLM: "Clasifica esta reseña de cliente como positiva, negativa o neutral." Para muchas tareas de clasificación, este enfoque zero-shot iguala o supera a clasificadores especializados, especialmente cuando la tarea requiere entender matices o contexto. La compensación es costo y latencia — una llamada a la API de un LLM es mucho más cara que ejecutar un clasificador pequeño localmente.
La exactitud (porcentaje correcto) es la métrica más intuitiva pero puede ser engañosa. Si el 99% de los correos no son spam, un modelo que siempre predice "no spam" obtiene 99% de exactitud pero no detecta ningún spam. La precisión (de los positivos predichos, cuántos son correctos), el recall (de los positivos reales, cuántos fueron encontrados) y el F1 (media armónica de precisión y recall) dan una imagen más completa. La métrica correcta depende del costo de los errores en tu aplicación específica.