Entropia cruzada: −log(P(token correto)). Perplexidade = exp(perda). A perda não é tudo: modelos alinhados podem ter perda mais alta mas serem mais úteis.
Para cada token na sequência, o modelo produz probabilidades sobre todo o vocabulário. A perda de entropia cruzada é o logaritmo negativo da probabilidade atribuída ao token correto. Se o modelo atribui 90% de probabilidade ao token certo, a perda é baixa (~0.1). Se atribui 1%, a perda é alta (~4.6). A média sobre todos os tokens dá a perda do treinamento.
Um insight contra-intuitivo: modelos alinhados via RLHF/DPO frequentemente têm perda de entropia cruzada MAIS ALTA que o modelo base, porque o alinhamento os afasta da distribuição pura dos dados de treinamento. Isso é feature, não bug — o modelo está priorizando respostas úteis e seguras sobre imitar perfeitamente o corpus de treinamento.