Fluxos de trabalho de anotação tipicamente envolvem: (1) criar diretrizes claras de rotulagem (o que conta como "sentimento positivo"? qual é a fronteira de um "carro" em uma caixa delimitadora?), (2) treinar anotadores nas diretrizes, (3) anotar dados com múltiplos anotadores por exemplo (para controle de qualidade), (4) medir concordância entre anotadores (os anotadores concordam nos rótulos?) e (5) resolver discordâncias (através de adjudicação ou voto majoritário). Baixa concordância frequentemente indica diretrizes ambíguas ou dados genuinamente ambíguos.
Para alinhamento de LLMs, anotação significa comparar respostas de modelos: "A resposta A ou a resposta B é melhor para este prompt?" Essa anotação de preferência é particularmente desafiadora porque "melhor" é subjetivo, dependente de contexto e culturalmente variável. A demografia, expertise e instruções dos anotadores influenciam os dados de preferência resultantes, que por sua vez moldam o comportamento do modelo. É por isso que alinhamento é frequentemente descrito como codificar os valores de quem escreve as diretrizes de anotação.
Cada vez mais, modelos de IA assistem com anotação: pré-rotulando dados que humanos então corrigem (mais rápido que rotular do zero), gerando dados sintéticos de anotação ou servindo como anotadores adicionais ao lado de humanos. Isso cria um loop de feedback interessante: IA ajuda a rotular dados que treinam IA melhor. O risco é que anotação assistida por IA herda os vieses do modelo assistente, então supervisão humana permanece essencial.