Los flujos de trabajo de anotación típicamente involucran: (1) crear directrices claras de etiquetado (¿qué cuenta como "sentimiento positivo"? ¿cuál es el límite de un "auto" en una caja delimitadora?), (2) entrenar a los anotadores en las directrices, (3) anotar datos con múltiples anotadores por ejemplo (para control de calidad), (4) medir el acuerdo entre anotadores (¿los anotadores coinciden en las etiquetas?) y (5) resolver desacuerdos (mediante adjudicación o voto mayoritario). Un acuerdo bajo a menudo indica directrices ambiguas o datos genuinamente ambiguos.
Para la alineación de LLMs, anotar significa comparar respuestas del modelo: "¿Es mejor la respuesta A o la respuesta B para este prompt?" Esta anotación de preferencias es particularmente desafiante porque "mejor" es subjetivo, dependiente del contexto y culturalmente variable. La demografía, experiencia e instrucciones de los anotadores influyen en los datos de preferencia resultantes, que a su vez moldean el comportamiento del modelo. Por eso la alineación a menudo se describe como codificar los valores de quien escribe las directrices de anotación.
Cada vez más, los modelos de IA asisten con la anotación: pre-etiquetando datos que los humanos luego corrigen (más rápido que etiquetar desde cero), generando datos de anotación sintéticos o sirviendo como anotadores adicionales junto con los humanos. Esto crea un ciclo de retroalimentación interesante: la IA ayuda a etiquetar datos que entrenan mejor IA. El riesgo es que la anotación asistida por IA hereda los sesgos del modelo asistente, por lo que la supervisión humana sigue siendo esencial.