Les flux de travail d'annotation impliquent typiquement : (1) créer des directives d'étiquetage claires (qu'est-ce qui compte comme « sentiment positif » ? où est la frontière d'une « voiture » dans une boîte englobante ?), (2) former les annotateurs aux directives, (3) annoter les données avec plusieurs annotateurs par exemple (pour le contrôle qualité), (4) mesurer l'accord inter-annotateurs (les annotateurs sont-ils d'accord sur les étiquettes ?), et (5) résoudre les désaccords (par arbitrage ou vote majoritaire). Un faible accord indique souvent des directives ambiguës ou des données véritablement ambiguës.
Pour l'alignement des LLM, l'annotation signifie comparer les réponses du modèle : « Est-ce que la réponse A ou la réponse B est meilleure pour ce prompt ? » Cette annotation de préférence est particulièrement difficile parce que « meilleur » est subjectif, dépend du contexte et varie culturellement. Les caractéristiques démographiques des annotateurs, leur expertise et les instructions influencent toutes les données de préférence résultantes, qui à leur tour façonnent le comportement du modèle. C'est pourquoi l'alignement est souvent décrit comme l'encodage des valeurs de celui qui rédige les directives d'annotation.
De plus en plus, les modèles d'IA assistent l'annotation : pré-étiqueter les données que les humains corrigent ensuite (plus rapide que l'étiquetage à partir de zéro), générer des données d'annotation synthétiques, ou servir d'annotateurs supplémentaires aux côtés des humains. Ça crée une boucle de rétroaction intéressante : l'IA aide à étiqueter les données qui entraînent une meilleure IA. Le risque est que l'annotation assistée par IA hérite des biais du modèle assistant, donc la supervision humaine reste essentielle.