Page 34 - Mégadonnées, apprentissage automatique, protection des usagers et confidentialité
P. 34
mêmes biaisées, les données servant aux processus faussées ou si des substituts d'une catégorie proté-
d'apprentissage automatique peuvent perpétuer ou gée sont utilisés exprès pour produire des résultats
exacerber d'autres préjugés. discriminatoires.
La solvabilité d'une personne peut être évaluée en Les techniques permettant d'éliminer les biais
fonction non seulement de ses attributs, mais aus- fondés sur des attributs protégés visent à garantir
si de ceux de son réseau social. En 2015, Facebook que l'étiquette que l'on colle à un individu ne tient
a déposé un brevet qui permettait, entre autres, de pas compte de ces attributs . Cependant, même
131
filtrer les demandes de prêt selon la cote de crédit si lesdits attributs ne sont pas explicitement pris en
moyenne des amis d'un demandeur de prêt, par compte, des attributs corrélés (indirects) peuvent
rapport au score de crédit minimal prescrit . Cette être intégrés à l'ensemble de données, ce qui donne
128
situation peut entraîner un risque de discrimination, des résultats potentiellement discriminatoires. Il est
voire d'exclusion financière, si les amis d'un deman- difficile de tenir compte de cet aspect dans le cadre
deur appartiennent majoritairement à un groupe de de l'apprentissage automatique, mais des tests ont
population à faible revenu, même si les caractéris- été mis au point pour évaluer l'incidence d'une déci-
tiques propres au demandeur le qualifiaient pour le sion automatisée sur différents groupes protégés .
132
prêt . Le risque est qu'en s'appuyant sur des don- Dans certains pays, un biais non intentionnel peut
129
nées antérieures, ces technologies facilitent l'accès tout à fait être illégal s'il a un "impact disparate",
des populations les plus riches aux services finan- notamment lorsque les résultats d'un processus de
ciers et entravent au contraire l'accès des groupes sélection sont très différents pour une catégorie de
minoritaires, qui n'y avaient déjà pas accès par le personnes protégées (par exemple, en fonction du
passé, ce qui "automatise les inégalités" . genre, de l'appartenance ou de l'origine ethnique, ou
130
La discrimination peut également être intégrée de la religion), par rapport à d'autres groupes, alors
aux modèles d'apprentissage automatique dans la que le processus semble quant à lui être neutre. La
"sélection des paramètres", c'est-à-dire les choix notion d'impact disparate a été développée à partir
effectués lors de leur conception concernant les d'une décision de la Cour suprême des États-Unis,
données à prendre en compte. Si un modèle peut ne en 1971 , qui a constaté que certains résultats de
133
pas tenir explicitement compte de l'appartenance à tests d'intelligence et certains diplômes d'études
une catégorie protégée (par exemple, le genre, l'ap- secondaires dépendaient largement de l'apparte-
partenance ou l'origine ethnique, la religion), en par- nance ethnique, ce qui peut conduire à des décisions
ticulier si cela est illégal, il peut néanmoins s'appuyer d'embauche discriminatoires . La Cour suprême des
134
sur des données qui permettent de faire des déduc- États-Unis a récemment réaffirmé cette théorie juri-
tions sur l'appartenance à ladite catégorie protégée. dique lorsqu'en 2015, elle a stipulé qu'un plaignant
Les codes postaux sont un exemple couramment uti- pouvait établir un commencement de preuve pour
lisé, car certaines zones abritent un pourcentage éle- discrimination en vertu de la loi sur le logement équi-
vé de la population provenant d'un groupe ethnique table (Fair Housing Act), sans avoir à prouver que
particulier. ladite discrimination était intentionnelle s'il apportait
Un autre problème se pose lorsque le modèle la preuve statistique qu'une politique gouvernemen-
d'apprentissage automatique ne prend pas en tale provoquait un impact disparate .
135
compte un ensemble de facteurs suffisamment large Il est plus difficile d'évaluer l'impact disparate,
pour garantir que les membres d'un groupe proté- et partant les biais, lorsque des ordinateurs sont
gé sont évalués avec autant de précision que les impliqués. Il peut par ailleurs s'avérer difficile, voire
autres. Un modèle peut disposer d'un nombre limité impossible, de divulguer et d'expliquer le processus
de données de crédit sur les membres d'un groupe de sélection par algorithme. Cependant, lorsqu'il
défavorisé parce qu'ils sont moins nombreux à avoir peut être démontré qu'un modèle produit des résul-
emprunté par le passé. Si les algorithmes sont entraî- tats discriminatoires, il est possible qu'il enfreigne
nés à partir d'un plus grand volume de données d'en- également les lois interdisant la discrimination, bien
trée provenant d'un certain groupe (plutôt que d'un que cela puisse être difficile à prouver, notamment
autre), ils peuvent produire des résultats favorisant lorsque des justifications telles que la nécessité com-
ce groupe au détriment d'un autre. merciale entrent en jeu .
136
En outre, les modèles d'apprentissage automa- On peut parler de sélection discriminatoire sans
tique pourraient être utilisés pour masquer délibé- que des groupes protégés soient impliqués. Par
rément la discrimination. Cela pourrait se produire exemple, lorsque les algorithmes des services finan-
si les données d'apprentissage sont volontairement ciers numériques déduisent à partir des données uti-
32 Mégadonnées, apprentissage automatique, protection des usagers et confidentialité