La modération de contenu est antérieure à l'IA de plusieurs décennies — chaque forum en ligne depuis Usenet a eu quelqu'un qui décidait ce qui reste et ce qui part. Ce qui a changé, c'est l'échelle. Facebook traite plus d'un milliard de publications par jour. YouTube reçoit 500 heures de vidéo chaque minute. TikTok, X, Reddit et toute autre plateforme avec du contenu généré par les utilisateurs font face au même calcul : le volume de contenu est physiquement impossible à examiner entièrement par des humains. Les classificateurs IA sont devenus nécessaires non pas parce qu'ils sont bons à la tâche, mais parce que l'alternative — aucune modération du tout — est pire. L'arrivée de l'IA générative a aggravé le problème. Des outils qui rendent triviale la production de texte, d'images et de vidéo à grande échelle rendent tout aussi triviale la production de contenu nuisible à grande échelle. Il faut maintenant de l'IA pour modérer le contenu que l'IA elle-même a généré.
La plupart des systèmes de modération en production utilisent une approche par couches. La première couche est constituée de classificateurs automatisés : des modèles d'apprentissage automatique entraînés à signaler le contenu dans des catégories comme le discours haineux, la violence, la nudité, le pourriel et l'automutilation. Ces classificateurs traitent tout et opèrent en millisecondes. La deuxième couche est la correspondance par empreinte, où le contenu nuisible connu (particulièrement le matériel d'abus sexuel d'enfants) est comparé à des bases de données comme celle du NCMEC en utilisant le hachage perceptuel — PhotoDNA étant le plus largement déployé. La troisième couche est la revue humaine, où le contenu signalé est envoyé à des modérateurs humains qui prennent les décisions finales sur les cas ambigus. Les grandes plateformes comme Meta et Google emploient des dizaines de milliers de réviseurs humains, souvent par l'intermédiaire d'entreprises de sous-traitance dans des pays comme le Kenya, les Philippines et l'Inde. Les conditions de travail et le coût psychologique pour ces réviseurs ont été largement documentés et restent une préoccupation éthique sérieuse dans l'industrie.
Le défi le plus difficile en modération de contenu est le contexte. L'expression « je vais te tuer » est une menace de mort dans une conversation et un badinage amical dans une autre. Une image médicale d'une blessure est du contenu éducatif sur un forum de santé et de la violence graphique sur une plateforme généraliste. La satire, l'ironie et le sarcasme trompent régulièrement des classificateurs qui performent bien sur des exemples directs. La modération multilingue ajoute une autre dimension : la plupart des classificateurs IA performent le mieux en anglais et se dégradent significativement dans les autres langues, ce qui signifie que les plateformes sont souvent le moins capables de modérer le contenu dans les régions où les enjeux sont les plus élevés. Pendant le génocide au Myanmar, les systèmes de modération de Facebook ont échoué de manière catastrophique sur le discours haineux en birman, un échec que l'entreprise elle-même a reconnu par la suite. La leçon est que la qualité de la modération ne vaut que ce que votre langue la moins performante vaut, pas la meilleure.
L'IA générative crée de nouveaux défis de modération que les systèmes existants n'étaient pas conçus pour gérer. Les images générées par IA peuvent produire du CSAM inédit sans utiliser de véritables photographies, ce qui signifie que les bases de données de correspondance par empreinte sont inutiles contre elles. Le texte synthétique peut être adapté pour contourner les filtres de mots-clés et les schémas des classificateurs parce que le générateur peut itérer jusqu'à ce que la sortie passe. Le clonage vocal permet l'usurpation d'identité à grande échelle. Et le volume même de contenu généré par IA — texte, images, vidéo — menace de submerger des pipelines de modération qui fonctionnaient déjà à pleine capacité. Du côté défensif, les LLM sont de plus en plus utilisés comme outils de modération eux-mêmes : l'approche d'IA constitutionnelle d'Anthropic, le point d'accès de modération d'OpenAI et Llama Guard de Meta sont des exemples d'utilisation de modèles de langage pour évaluer le contenu avec plus de nuance que les classificateurs traditionnels. Ces modérateurs basés sur des LLM gèrent mieux le contexte mais coûtent plus cher à exécuter et introduisent leurs propres biais.
Chaque décision de modération est un compromis entre deux types d'erreur. La surmodération réduit au silence la parole légitime, affectant de manière disproportionnée les communautés marginalisées, la dissidence politique et les discussions sur des sujets sensibles mais importants comme la santé sexuelle ou les politiques sur les drogues. La sous-modération permet un préjudice réel : campagnes de harcèlement, pipelines de radicalisation, fraude et distribution de contenu illégal. Aucun système ne trouve cet équilibre correctement pour tout le monde, et le « bon » équilibre dépend de valeurs culturelles qui varient selon les pays, les communautés et les individus. Les plateformes opérant à l'échelle mondiale doivent prendre ces décisions à travers des centaines de juridictions avec des normes juridiques différentes, et les décisions qu'elles prennent — souvent encodées dans les données d'entraînement des classificateurs et les seuils de déclenchement — ont un impact pratique sur la liberté d'expression plus important que la plupart des lois. Les personnes qui construisent ces systèmes font, qu'elles l'aient voulu ou non, des jugements éditoriaux et éthiques à l'échelle de la civilisation.