Classificação: Definição e significado — Wiki de IA

A tarefa de atribuir uma entrada a uma de um conjunto predefinido de categorias. "Esse e-mail é spam ou não?" (classificação binária). "Essa imagem é um gato, cachorro ou pássaro?" (multi-classe). "Quais dessas tags se aplicam a este artigo?" (multi-label). Classificação é a tarefa de aprendizado supervisionado mais comum e a base de inúmeras aplicações reais de IA.

Por que isso importa

Classificação é onde a maioria das pessoas encontra machine learning na prática pela primeira vez — filtros de spam, moderação de conteúdo, diagnóstico médico, detecção de fraude, análise de sentimento. Entender classificação ajuda a compreender todo o pipeline de aprendizado supervisionado: dados rotulados entram, modelo treinado, predições saem.

Em profundidade

Um classificador gera uma distribuição de probabilidade sobre as classes. Para classificação binária, um único número entre 0 e 1 basta (a probabilidade da classe positiva). Para multi-classe, o modelo gera uma probabilidade para cada classe, tipicamente usando uma função softmax para garantir que somem 1. A classe prevista é geralmente a de maior probabilidade, mas você pode ajustar o limiar de decisão com base na sua tolerância a falsos positivos vs. falsos negativos.

LLMs como Classificadores

LLMs modernos são classificadores surpreendentemente bons. Em vez de treinar um modelo dedicado, você pode fazer um prompt a um LLM: "Classifique esta avaliação de cliente como positiva, negativa ou neutra." Para muitas tarefas de classificação, essa abordagem zero-shot iguala ou supera classificadores construídos sob medida, especialmente quando a tarefa exige compreensão de nuances ou contexto. O trade-off é custo e latência — uma chamada de API a um LLM é muito mais cara do que rodar um classificador pequeno localmente.

Métricas que Importam

Acurácia (percentual de acertos) é a métrica mais intuitiva mas pode ser enganosa. Se 99% dos e-mails não são spam, um modelo que sempre prediz "não spam" consegue 99% de acurácia mas não pega nenhum spam. Precisão (dos positivos previstos, quantos estão corretos), recall (dos positivos reais, quantos foram encontrados) e F1 (média harmônica de precisão e recall) dão um quadro mais completo. A métrica correta depende do custo dos erros na sua aplicação específica.

Classificação

Por que isso importa

Em profundidade

LLMs como Classificadores

Métricas que Importam

Conceitos relacionados