Les biais dans les systèmes d'IA proviennent de sources multiples, et les données d'entraînement sont simplement la plus évidente. Oui, si votre corpus surreprésente certains groupes démographiques ou points de vue, le modèle le reflétera. Mais les biais entrent aussi par l'étiquetage (les humains qui notent les exemples d'entraînement apportent leurs propres présupposés), par l'évaluation (des benchmarks qui testent la maîtrise de l'anglais mais pas celle du yoruba), par le contexte de déploiement (un filtre de CV entraîné sur les données d'embauche historiquement biaisées d'une entreprise), et même par la fonction de perte elle-même (optimiser pour l'engagement peut amplifier du contenu sensationnaliste ou clivant). Comprendre ces vecteurs distincts est important parce que chacun nécessite une stratégie d'atténuation différente.
Les approches techniques pour mesurer et réduire les biais ont considérablement mûri. Les tests sur les embeddings de mots comme le WEAT (Word Embedding Association Test) ont montré dès 2017 que les embeddings word2vec et GloVe associaient « masculin » à « carrière » et « féminin » à « famille » de manière qui reflétait le Test d'Association Implicite de la psychologie. Pour les grands modèles de langage modernes, l'évaluation est plus difficile. Les chercheurs utilisent des benchmarks comme BBQ (Bias Benchmark for QA), WinoBias et RealToxicityPrompts pour sonder les stéréotypes, mais ceux-ci ne détectent que les biais auxquels quelqu'un a pensé à tester. Le red teaming et l'évaluation adversarielle comblent certaines lacunes, mais la longue traîne des biais possibles est effectivement infinie.
Les techniques de débiaisage comportent de vrais compromis que les praticiens doivent comprendre. Les interventions au niveau des données — rééquilibrage, augmentation des groupes sous-représentés, filtrage du contenu toxique — peuvent aider mais risquent aussi d'effacer un contexte culturel légitime ou de créer des distributions artificiellement aseptisées. Les interventions au niveau du modèle comme l'apprentissage contrastif ou le DPO sur des paires de préférences spécifiques aux biais peuvent réduire les stéréotypes mais parfois surcorrigent, produisant des sorties maladroitement évasives ou qui refusent de reconnaître des différences statistiques réelles quand elles sont pertinentes (un modèle médical devrait savoir que la prévalence de la drépanocytose varie selon l'ascendance). La controverse autour de la génération d'images de Gemini de Google début 2024 — générant des soldats nazis ethniquement diversifiés — était un exemple frappant de surcorrection qui a mal tourné. L'objectif n'est pas de faire semblant que les différences n'existent pas ; c'est d'empêcher le modèle de faire des suppositions injustes sur des individus basées sur leur appartenance à un groupe.
L'une des formes de biais les plus importantes et les moins discutées est le biais linguistique et culturel. La plupart des modèles de pointe sont entraînés principalement sur du texte anglais, avec des présupposés culturels occidentaux intégrés. Demandez à un modèle quelles sont les structures familiales « normales », l'étiquette professionnelle, ou même ce qui constitue une conversation « polie », et vous obtiendrez des réponses qui penchent vers l'Amérique ou l'Europe de l'Ouest. Cela affecte des milliards de locuteurs non anglophones qui interagissent avec ces systèmes. Des modèles multilingues comme BLOOM et Aya ont fait des progrès, mais l'écart de performance entre l'anglais et les langues à faibles ressources reste substantiel, et ce n'est pas qu'une question de fluidité — c'est aussi une question de compréhension du contexte culturel dans ces langues.
Pour les développeurs qui construisent sur ces modèles, la réalité pratique est que le biais est quelque chose que l'on gère, pas quelque chose que l'on élimine. On choisit des critères d'évaluation pertinents pour son cas d'usage spécifique, on mesure par rapport à ceux-ci, et on prend des décisions délibérées sur les compromis acceptables. Un assistant d'écriture créative et un outil de recrutement ont des profils de biais très différents et des enjeux très différents. La pire approche est de supposer que le modèle de base a « déjà été débiaisé » et de sauter l'évaluation entièrement — chaque contexte de déploiement introduit de nouvelles occasions pour les biais de causer du tort, et la démarche responsable est de tester avant que vos utilisateurs ne le découvrent pour vous.