Função de Perda: Definição e significado — Wiki de IA

Mede o quão erradas são as predições. Para LLMs: perda de entropia cruzada = quão surpreso o modelo fica com o próximo token real. O treinamento minimiza isso.

Por que isso importa

A bússola do treinamento. Entender a perda ajuda a interpretar curvas de treinamento e diagnosticar problemas.

Em profundidade

Entropia cruzada: −log(P(token correto)). Perplexidade = exp(perda). A perda não é tudo: modelos alinhados podem ter perda mais alta mas serem mais úteis.

Entropia Cruzada em Detalhe

Para cada token na sequência, o modelo produz probabilidades sobre todo o vocabulário. A perda de entropia cruzada é o logaritmo negativo da probabilidade atribuída ao token correto. Se o modelo atribui 90% de probabilidade ao token certo, a perda é baixa (~0.1). Se atribui 1%, a perda é alta (~4.6). A média sobre todos os tokens dá a perda do treinamento.

Perda vs Utilidade

Um insight contra-intuitivo: modelos alinhados via RLHF/DPO frequentemente têm perda de entropia cruzada MAIS ALTA que o modelo base, porque o alinhamento os afasta da distribuição pura dos dados de treinamento. Isso é feature, não bug — o modelo está priorizando respostas úteis e seguras sobre imitar perfeitamente o corpus de treinamento.

Função de Perda

Por que isso importa

Em profundidade

Entropia Cruzada em Detalhe

Perda vs Utilidade

Conceitos relacionados