L'IA et les biais de genre

Partager
L'IA et les biais de genre

Auteur : Joana CUNHA


L'utilisation de l'IA est incontournable de nos jours, mais est-elle consciente des biais et stéréotypes de ses données et résultats ?

Célébrée le 11 février depuis sa proclamation par l’Assemblée générale des Nations Unies en 2015, la Journée internationale des femmes et des filles de science met à l’honneur les contributions remarquables des femmes en science tout en sensibilisant au fait que la science et l'égalité des genres doivent progresser main dans la main pour relever les principaux défis mondiaux.

Alors que les femmes restent sous-représentées dans la recherche à l’échelle mondiale, l’UNESCO appelle à une participation accrue des femmes en sciences afin de favoriser des avancées scientifiques, technologiques et innovantes plus éthiques, inclusives et en phase avec les besoins de la société.

Voici les chiffres clés concernant les femmes dans la tech :

Domaine% de femmesTendance
Tech (Global)~17 - 22 %Stagnation relative
Développement Logiciel16 %Faible
Cybersécurité11 %Très faible
Data & IA22 - 28 %En légère hausse
Étudiantes en école d'ingénieur~28 % (France)Stable

Avec l’explosion de l’utilisation de l’IA et toutes les nouveautés presque quotidiennes, j’ai décidé, à l’approche de cette date, de me pencher sur un point névralgique de l'éthique de l'IA : l'injustice épistémique (la manière dont la crédibilité d'une personne est perçue selon son genre) et la reproduction des stéréotypes.

Pour contextualiser ces biais algorithmiques, il faut regarder la réalité des données que les modèles ingèrent :

  • livres : depuis 2020, pourcentage de livres publiés par des hommes/femmes autour de 50/50 aux US et 58/42 en France (Waldfogel 2020, BnF 2024)
  • articles scientifiques : entre 60-80% d’auteurs masculins (variation entre les matières) (Sanchez-Jiménez et al., 2024)
  • forums : sur Reddit, environ 60% des utilisateurs actifs s’identifient comme hommes, sur Stack Overflow, plus de 90% des contributeurs sont des hommes
  • Wikipédia : moins de 20% de pages sur des femmes et entre 10-15% de contributions par des femmes (Wikimedia Foundation, 2021);
  • GitHub : moins de 10% des contributeurs sur GitHub s’identifient comme femmes (IEEE/ACM, 2020);
  • films : plus de répliques sont faites par des hommes (The Pudding, 2017)

Les biais de genre dans les premiers modèles

Selon des études récentes de Kotek et al. (2023), on sait que déclarer un genre dans son prompt modifie la réponse générée (“expert femme” vs “expert homme”). Bien que les LLMs (Large Language Models) soient entraînés pour être neutres, ils montrent des biais persistants. Selon Galegos et al. (2024) il y a deux types de biais :

  • Biais de reconnaissance : les modèles sont capables d’identifier et de reconnaître les stéréotypes ou biais lorsqu’on les interroge directement.
  • Biais de génération : lorsque ces mêmes modèles génèrent du contenu de manière libre (par exemple, en écrivant des histoires ou des récits), ils reproduisent fréquemment ces stéréotypes.

Il existe alors une asymétrie de traitement : si l'utilisateur est identifié comme homme, l'IA privilégie un vocabulaire lié à l'accomplissement, la prise de risque et à la technique. Pour une femme, elle bascule vers un langage émotionnel et prudent. Ce phénomène persiste même dans les modèles comme GPT-4o ou Claude 3.5 (lancés en 2024).

Nouveau genre : IA ?

Les biais observés soulèvent une autre question : existerait-il un nouveau genre, celui de l’IA ? Quand on l’utilise en français, sans donner un contexte dans les prompts, les LLMs textuels, qui se disent neutres par défaut, utilisent le genre masculin car il est considéré neutre dans beaucoup de langues. Cela crée un "biais de défaut", où l'absence de spécification conduit systématiquement à une représentation masculine, renforçant l'invisibilisation.

Alors, utiliser une langue genrée versus non genrée (comme l’anglais) pourrait produire des résultats différents ? Le genre existe au-delà des mots employés, c’est surtout lié au sens sémantique qu’ont les mots. En anglais, le biais est associatif et statistique : par exemple, même si le mot "Doctor" est neutre, les modèles de langage ont historiquement associé "Doctor" au pronom "He" (il) et "Nurse" (infirmier/ère) au pronom "She" (elle) dans la grande majorité des cas, simplement parce que c'est ce qu'ils ont vu dans les données d'entraînement.

En 2016, l’étude de Bolukbasi et al. a démontré que des “word embeddings” (plongements de mots) issus de l'analyse vectorielle des mots du modèle Word2Vec de Google montraient des biais de genre :

King - Man + Woman = Queen ✓ 

Doctor - Man + Woman = Nurse ✗

Computer Programmer - Man + Woman = Homemaker ✗ 

Boss - Man + Woman = Receptionist ✗

Cela démontre que le modèle avait "appris" que le concept de programmation comme une composante sémantique masculine, et celui de la maison à la femme, car le mot Femme est souvent lié aux mots Famille et Maison. L'IA agit simplement comme un écho statistique des schémas de langage des humains qui ont écrit les données.

Un problème éthique et commercial

Pour des entreprises comme OpenAI, Google, Anthropic, et Meta, ces biais ne sont pas seulement un enjeu de responsabilité sociale, mais un risque commercial majeur. Puisque les modèles absorbent par défaut le "bruit de fond" d’Internet, il existe trois types de "corrections forcées" appliquées :

1. Prompts cachés

L'ajout de prompts cachés (système de consignes invisibles), bien que rapide, impose une diversité artificielle en forçant l'ajout de mots-clés dans la requête de l'utilisateur. C'est cette rigidité qui a mené à des aberrations historiques, comme l'épisode des "soldats nazis issus de la diversité" chez Gemini en 2024.

2. Apprentissage par exemple

On peut utiliser la méthode de Fine-Tuning Supervisé (SFT), ou les modèles sont réentraînés sur des jeux de données spécifiquement équilibrés, avec des exemples de bonnes réponses non biaisées et représentatives.

3. Surveillance algorithmique et alignement automatisé

Pour dépasser les limites de l’intervention humaine, l’industrie adopte d'autres solutions pour guider les LLMs :

  • RLHF (Reinforcement Learning from Human Feedback) : les modèles sont corrigés par les humains qui classent les réponses (processus long et couteux)
  • RLAIF (Reinforcement Learning from AI Feedback) : solution popularisée par Anthropic sous le nom de Constitutional AI. Le modèle n'est plus jugé par des humains, mais par une autre IA guidée par une liste de principes écrits (ex: "Tu dois être inclusif").
  • DPO (Direct Preference Optimization) : on simplifie l'alignement (processus qui consiste à s'assurer que les comportements et les réponses d'une IA sont conformes aux valeurs et attentes humaines). Au lieu de passer par un "modèle de récompense" complexe (comme RLHF), le DPO permet d'optimiser le modèle directement en lui donnant des paires de réponses préféree vs rejetée. Le DPO demande à l'IA de comparer sa propre probabilité de générer la réponse A par rapport à la réponse B.

Nouveaux biais

Même avec les filtres, ces corrections de surface peinent à effacer des biais plus subtils comme celui de la "Femme Fatale" (Cho et al. 2022) : alors qu'un scientifique homme peut être représenté de manière diverse, une femme scientifique est souvent générée selon des standards de beauté conventionnels, hérités des banques d'images publicitaires utilisées durant l'entraînement.

Conclusion et avenir

Est-ce que les résultats se sont améliorés depuis ? La réponse est paradoxale.

Bien qu'ils évitent désormais les formulations ouvertement sexistes et racistes, les résultats restent encore profondément stéréotypés, confirmant les observations de Sheng et al. et Steed et Caliskan faites en 2021.

On peut donc conclure que les outils d'IA peinent encore à représenter les femmes scientifiques au même niveau que leurs homologues masculins. Le "plafond de verre" algorithmique est devenu un “miroir déformant” de la société; ces barrières invisibles, mais réelles, empêchent les femmes ou autres groupes minoritaires de bénéficier de la même reconnaissance, malgré des compétences équivalentes. Et cet effet “miroir” est exacerbé car l’IA produit des textes qui nourrissent d’autres IA, qui reproduisent les mêmes biais, approximations, erreurs de fond, voire fausses informations.

L’avenir des femmes dans l’IA dépend donc de produire plus de contenu représentatif de la diversité de rôles des femmes, avoir plus de femmes comme autrices principales d’articles scientifiques, évaluer les modèles (avec Phare de Giskard, Hugging Face Bias Detection Toolkit et WinoBias), améliorer les dataset (WikiGender, Women Who Code et Algorithmic Justice League visent à enrichir les données équitablement), améliorer les prompts pour guider le modèle vers des réponses plus inclusives (utiliser un plugin comme Aequitas pour aider à formuler des prompts équilibrés).