Les chercheurs de Google ont documenté comment les grands modèles de langage ont colonisé chaque étape de la modération de contenu, créant ce qu'ils appellent un « Cycle de vie de détection d'abus » où les LLM génèrent des étiquettes d'entraînement synthétiques, classifient le contenu nuisible, examinent les appels et auditent leurs propres systèmes pour les biais. L'étude a trouvé que des modèles comme GPT-4 atteignent des scores F1 au-dessus de 0,75 sur les benchmarks de toxicité dans des configurations zero-shot—égalant les annotateurs humains sans fine-tuning. La famille Llama Guard de Meta exemplifie l'approche spécialisée, gérant à la fois la protection input-output et l'adaptation de politique zero-shot où de nouvelles règles de sécurité peuvent être passées directement dans les prompts.

Ceci marque un changement fondamental par rapport aux systèmes basés sur BERT qui pouvaient attraper les insultes explicites mais échouaient sur le sarcasme, le langage codé et les nuances culturelles. L'ironie est frappante : on utilise la même technologie qu'on essaie de modérer pour faire la modération. Une étude citée a utilisé trois LLM comme annotateurs indépendants pour générer plus de 48 000 étiquettes synthétiques de biais médiatique, avec des classificateurs entraînés sur cette sortie synthétique performant aussi bien que les données étiquetées par des experts. Mais ceci crée une boucle de rétroaction fermée où les biais de modèle se composent—les modèles instruction-tuned sous-prédisent l'abus à cause d'un entraînement déséquilibré, tandis que les modèles alignés RLHF sur-prédisent par excès de prudence.

La recherche révèle un angle mort critique dans la gouvernance IA actuelle : on a construit des systèmes où les LLM se policent eux-mêmes avec une supervision humaine minimale. Différents modèles portent des penchants politiques distincts qui émergent dans les étiquettes qu'ils génèrent, pourtant les plateformes s'appuient de plus en plus sur des données synthétiques à des échelles que l'annotation humaine ne peut égaler. Une approche retrieval-augmented a atteint la précision few-shot de GPT-4 en utilisant seulement 2,2% des exemples disponibles, coupant les coûts d'inférence mais soulevant des questions sur la diversité des données et la couverture des cas limites.

Pour les développeurs qui construisent des systèmes de modération, cette recherche suggère qu'une approche hybride reste nécessaire. Les pipelines LLM purs peuvent mieux passer à l'échelle que l'annotation humaine, mais ils ont besoin de boucles de validation robustes et d'ensembles de modèles divers pour prévenir l'amplification de biais. Le problème de sur-refus dans les modèles RLHF affecte particulièrement les systèmes de production où les faux positifs peuvent faire taire la parole légitime.