Biais des algorithmes, discrimination et équité

12/10/2018 par

Les algorithmes régulent nos vies. Qu'il s'agisse du choix d'un parcours universitaire, de publicité, de recommandations, de scores, de recherches d’information en ligne, ou de prix de billets d'avion, ils s’immiscent dans notre quotidien à mesure des progrès de la science des données et de l'apprentissage statistique.

Réputés initialement plus neutres, ils sont pourtant accusés aujourd’hui de biaiser les résultats et de discriminer les personnes, volontairement ou involontairement, en fonction de leur genre, de leur origine ethnique, ou encore de leur orientation sexuelle. Aux Etats-Unis, des recherches ont ainsi mis en évidence que les populations afro-américaines étaient plus pénalisées par les décisions de justice (Angwin et al., 2016). Ces mêmes populations sont également plus discriminées sur les célèbres plateformes de locations d’appartement en ligne (Edelman, Luca and Svirsky, 2017). Enfin, des publicités ciblées et automatisées en ligne sur les opportunités d'emploi dans les domaines des sciences, de la technologie, de l'ingénierie et des mathématiques seraient plus fréquemment proposées aux hommes qu’aux femmes (Lambrecht and Tucker, 2017).

Ces biais des algorithmes soulèvent d'importantes questions d'éthique et d'équité : pourquoi les algorithmes sont-ils faussés ? Ces biais sont-ils inévitables ? Si oui, comment les limiter ?

Trois sources de biais, liées à des dimensions cognitives, statistiques et économiques peuvent être identifiées. Premièrement, les résultats des algorithmes dépendent de la manière dont les programmeurs les ont codé. Or ces derniers restent humains et la recherche en économie comportementale montre l’existence de biais cognitifs dans la prise de décision.

Par exemple, le biais de « bandwagon » peut conduire le programmeur à suivre des modélisations qui sont populaires sans s’assurer de leur exactitude.
Les biais d’anticipation et de confirmation peuvent conduire le programmeur à favoriser sa vision du monde, même si des données disponibles peuvent remettre en question cette vision.
Le biais de corrélation illusoire peut conduire une personne à déceler des corrélations entre deux événements indépendants.
Le biais de « framing » peut survenir lorsqu’une personne tire des conclusions différentes du même jeu de données en fonction de la manière dont l’information est présentée.

Deuxièmement, les biais peuvent être d’origine statistique. L’expression “Garbage in, garbage out” ("ordure dedans implique ordure dehors") fait référence au fait que même l'ordinateur le plus sophistiqué produira des résultats erronés et potentiellement biaisés si les données d'entrée avec lesquelles il fonctionne sont fausses. Après tout, il est facile de croire à un score produit par un algorithme propriétaire complexe et qui semble être basé sur des sources multiples. Mais si les données d’entrainement sur lesquelles l’algorithme apprend à classifier ou prédire sont partielles ou inexactes, comme c'est souvent le cas avec les fausses informations (infox), trolls, fausses identités, le résultat risque d’être biaisé : que se passe-t-il si les données sont erronées ? Si l’algorithme est entraîné sur des données liées à des citoyens américains qui peuvent se comporter très différemment de citoyens européens ? Ou même si certaines variables essentielles sont omises ? Comment codifier par exemple dans un algorithme des compétences relationnelles, ou bien l’intelligence émotionnelle (difficiles à appréhender par des machines qui ne ressentent pas d'émotions), des capacités de leadership ou de travail en équipe ? L’omission de variables peut conduire un algorithme à produire un résultat biaisé simplement parce que les variables oubliées peuvent être corrélées avec les variables retenues dans le modèle. Enfin, que se passe-t-il lorsque les données d’entrainement sont issues d’échantillons tronqués ou ne sont pas représentatives de la population sur laquelle on souhaite faire des prédictions (biais de sélection) ? James Heckman, dans ses travaux lui ayant valu le prix de la Banque de Suède en sciences économiques en mémoire d'Alfred Nobel, a montré que le biais de sélection était de la même nature que le biais de variable omise. L’exemple du credit scoring est frappant. Pour déterminer la catégorie de risque à laquelle appartient un emprunteur, les algorithmes se basent sur des données relatives à des personnes qui ont été éligibles à un emprunt dans un établissement particulier ; ces algorithmes ignorent donc les dossiers des personnes qui se sont vues refuser un crédit, qui n'ont pas eu besoin d'emprunter ou qui ont obtenu un prêt dans un autre établissement.

Troisièmement, les algorithmes peuvent biaiser les résultats pour des raisons économiques. Considérons les conseillers automatisés en ligne spécialisés dans la vente de services financiers. Ils peuvent favoriser les produits de l’entreprise qui fournit les conseils au détriment de l'intérêt du consommateur si ces produits financiers sont plus chers que la moyenne du marché. Cette situation est qualifiée de discrimination par les prix. Par ailleurs, dans le contexte de plateformes à plusieurs versants, les algorithmes peuvent favoriser des parties tierces qui ont passé des accords avec la plateforme. Dans le contexte du commerce électronique, la Commission européenne a récemment condamné Google à une amende 2,4 milliards d’euros pour avoir favorisé ses propres produits dans les résultats de recherche de Google Shopping au détriment de ses concurrents. D’autre cas de litiges sont liés à la suppression pure et simple des résultats de recherche d’applications sur l’Apple store ou à la rétrogradation d’applications dans les résultats de recherche de marketplaces.

Les algorithmes présentent donc des biais, qui semblent inévitables. Dès lors, comment les identifier, et limiter les discriminations ? L'acceptation sociale des algorithmes et de l'intelligence artificielle dépendra en effet de la capacité de tous les acteurs à répondre aux défis éthiques posés par l'utilisation des données et à adopter de bonnes pratiques.

Le premier défi pour les chercheurs est de concevoir des algorithmes plus équitables. Mais qu’est-ce que l’équité, et quelles règles d’équité faut-il appliquer ? Répondre à ces questions est une tâche ardue, et des siècles de débats ont opposé les chercheurs en sciences sociales et en philosophie. L’équité est un concept normatif admettant plusieurs définitions qui peuvent être incompatibles entre elles. Prenons l'exemple de l'équité individuelle et de celle de groupe. Un critère simple d'équité individuelle est celui par exemple de l’équité (égalité) des chances qui postule que des individus ayant des capacités identiques soient traités de manière similaire. Mais ce critère est incompatible avec un critère d'équité de groupe dans lequel les individus d'un même groupe, les femmes par exemple, seraient traitées de manière similaire. En d’autres termes, on ne peut à la fois vouloir donner une chance à tous les individus quelles que soient leurs caractéristiques et, en même temps, appliquer un critère d’équité sur le genre. Les deux notions d’équité sont incompatibles.

Le deuxième défi se pose aux entreprises, décideurs politiques et régulateurs, qui ont le devoir de promouvoir des pratiques éthiques (transparence et responsabilité), en régulant efficacement la collecte et l’usage des données personnelles. De nombreuses questions se posent : les algorithmes doivent-ils être transparents et audités ? Qui devrait être responsable du préjudice causé par les discriminations ? La régulation sur la protection des données à caractère personnel est-elle adaptée au biais algorithmique ? Comment intégrer des contraintes d'éthique qui peuvent certes augmenter les coûts pour la société à un niveau microéconomique mais diminuer les coûts des injustices et des inégalités qui résulteraient d'une société automatisée qui ne respecterait pas les principes fondamentaux d'absence de biais et de discrimination systématique ?

David Bounie, Professeur d'économie, Directeur du Département Sciences Économiques et Sociales à Télécom ParisTech
Patrick Waelbroeck, Professeur d'économie industrielle et d'économétrie à Télécom ParisTech, co-fondateur de la Chaire Valeurs et Politiques des Informations Personnelles