Um classificador gera uma distribuição de probabilidade sobre as classes. Para classificação binária, um único número entre 0 e 1 basta (a probabilidade da classe positiva). Para multi-classe, o modelo gera uma probabilidade para cada classe, tipicamente usando uma função softmax para garantir que somem 1. A classe prevista é geralmente a de maior probabilidade, mas você pode ajustar o limiar de decisão com base na sua tolerância a falsos positivos vs. falsos negativos.
LLMs modernos são classificadores surpreendentemente bons. Em vez de treinar um modelo dedicado, você pode fazer um prompt a um LLM: "Classifique esta avaliação de cliente como positiva, negativa ou neutra." Para muitas tarefas de classificação, essa abordagem zero-shot iguala ou supera classificadores construídos sob medida, especialmente quando a tarefa exige compreensão de nuances ou contexto. O trade-off é custo e latência — uma chamada de API a um LLM é muito mais cara do que rodar um classificador pequeno localmente.
Acurácia (percentual de acertos) é a métrica mais intuitiva mas pode ser enganosa. Se 99% dos e-mails não são spam, um modelo que sempre prediz "não spam" consegue 99% de acurácia mas não pega nenhum spam. Precisão (dos positivos previstos, quantos estão corretos), recall (dos positivos reais, quantos foram encontrados) e F1 (média harmônica de precisão e recall) dão um quadro mais completo. A métrica correta depende do custo dos erros na sua aplicação específica.