Anotação: Definição e significado — Wiki de IA

O processo de adicionar rótulos, tags ou metadados a dados brutos para que possam ser usados para aprendizado supervisionado. Anotar imagens significa desenhar caixas delimitadoras ao redor de objetos. Anotar texto significa rotular entidades, sentimento ou intenção. Anotar para RLHF significa classificar respostas de modelos por qualidade. Anotação é o trabalho humano que transforma dados brutos em dados de treinamento.

Por que isso importa

Anotação é a base sem glamour do aprendizado supervisionado. Todo dataset rotulado, todo modelo com fine-tune, todo assistente alinhado depende de anotadores humanos que passaram horas rotulando dados corretamente. A qualidade das anotações determina diretamente a qualidade do modelo — rotulagem inconsistente ou enviesada produz modelos inconsistentes e enviesados. É a parte mais trabalhosa e frequentemente mais cara de construir sistemas de IA.

Em profundidade

Fluxos de trabalho de anotação tipicamente envolvem: (1) criar diretrizes claras de rotulagem (o que conta como "sentimento positivo"? qual é a fronteira de um "carro" em uma caixa delimitadora?), (2) treinar anotadores nas diretrizes, (3) anotar dados com múltiplos anotadores por exemplo (para controle de qualidade), (4) medir concordância entre anotadores (os anotadores concordam nos rótulos?) e (5) resolver discordâncias (através de adjudicação ou voto majoritário). Baixa concordância frequentemente indica diretrizes ambíguas ou dados genuinamente ambíguos.

Anotação RLHF

Para alinhamento de LLMs, anotação significa comparar respostas de modelos: "A resposta A ou a resposta B é melhor para este prompt?" Essa anotação de preferência é particularmente desafiadora porque "melhor" é subjetivo, dependente de contexto e culturalmente variável. A demografia, expertise e instruções dos anotadores influenciam os dados de preferência resultantes, que por sua vez moldam o comportamento do modelo. É por isso que alinhamento é frequentemente descrito como codificar os valores de quem escreve as diretrizes de anotação.

Anotação Assistida por IA

Cada vez mais, modelos de IA assistem com anotação: pré-rotulando dados que humanos então corrigem (mais rápido que rotular do zero), gerando dados sintéticos de anotação ou servindo como anotadores adicionais ao lado de humanos. Isso cria um loop de feedback interessante: IA ajuda a rotular dados que treinam IA melhor. O risco é que anotação assistida por IA herda os vieses do modelo assistente, então supervisão humana permanece essencial.

Anotação

Por que isso importa

Em profundidade

Anotação RLHF

Anotação Assistida por IA

Conceitos relacionados