Page 34 - Mégadonnées, apprentissage automatique, protection des usagers et confidentialité
P. 34

mêmes biaisées, les données servant aux processus   faussées ou si des substituts d'une catégorie proté-
            d'apprentissage automatique peuvent perpétuer ou   gée sont utilisés exprès pour produire des résultats
            exacerber d'autres préjugés.                       discriminatoires.
               La solvabilité d'une personne peut être évaluée en   Les  techniques  permettant d'éliminer  les biais
            fonction non seulement de ses attributs, mais aus-  fondés sur des attributs protégés visent à garantir
            si de ceux de son réseau social. En 2015, Facebook   que l'étiquette que l'on colle à un individu ne tient
            a déposé un brevet qui permettait, entre autres, de   pas  compte  de  ces  attributs .  Cependant,  même
                                                                                         131
            filtrer les demandes de prêt selon la cote de crédit   si lesdits attributs ne sont pas explicitement pris en
            moyenne des amis d'un demandeur de prêt, par       compte, des attributs corrélés (indirects) peuvent
            rapport au score de crédit minimal prescrit . Cette   être intégrés à l'ensemble de données, ce qui donne
                                                   128
            situation peut entraîner un risque de discrimination,   des résultats potentiellement discriminatoires. Il est
            voire d'exclusion financière, si les amis d'un deman-  difficile de tenir compte de cet aspect dans le cadre
            deur appartiennent majoritairement à un groupe de   de l'apprentissage automatique, mais des tests ont
            population à faible revenu, même si les caractéris-  été mis au point pour évaluer l'incidence d'une déci-
            tiques propres au demandeur le qualifiaient pour le   sion automatisée sur différents groupes protégés .
                                                                                                          132
            prêt . Le risque est qu'en s'appuyant sur des don-   Dans certains pays, un biais non intentionnel peut
                129
            nées antérieures, ces technologies facilitent l'accès   tout  à fait être  illégal s'il a  un "impact disparate",
            des populations les plus riches aux services finan-  notamment lorsque les résultats d'un processus de
            ciers et entravent au contraire l'accès des groupes   sélection sont très différents pour une catégorie de
            minoritaires, qui n'y avaient déjà pas accès par le   personnes protégées (par exemple, en fonction du
            passé, ce qui "automatise les inégalités" .        genre, de l'appartenance ou de l'origine ethnique, ou
                                               130
               La  discrimination peut également être  intégrée   de la religion), par rapport à d'autres groupes, alors
            aux modèles d'apprentissage automatique dans la    que le processus semble quant à lui être neutre. La
            "sélection des paramètres", c'est-à-dire les choix   notion d'impact disparate a été développée à partir
            effectués lors de leur conception concernant les   d'une décision de la Cour suprême des États-Unis,
            données à prendre en compte. Si un modèle peut ne   en  1971 , qui a constaté que certains résultats de
                                                                     133
            pas tenir explicitement compte de l'appartenance à   tests d'intelligence et certains diplômes d'études
            une catégorie protégée (par exemple, le genre, l'ap-  secondaires  dépendaient  largement  de  l'apparte-
            partenance ou l'origine ethnique, la religion), en par-  nance ethnique, ce qui peut conduire à des décisions
            ticulier si cela est illégal, il peut néanmoins s'appuyer   d'embauche discriminatoires . La Cour suprême des
                                                                                        134
            sur des données qui permettent de faire des déduc-  États-Unis a récemment réaffirmé cette théorie juri-
            tions sur l'appartenance à ladite catégorie protégée.   dique lorsqu'en 2015, elle a stipulé qu'un plaignant
            Les codes postaux sont un exemple couramment uti-  pouvait établir un commencement de preuve pour
            lisé, car certaines zones abritent un pourcentage éle-  discrimination en vertu de la loi sur le logement équi-
            vé de la population provenant d'un groupe ethnique   table  (Fair  Housing  Act),  sans  avoir  à  prouver  que
            particulier.                                       ladite discrimination était intentionnelle s'il apportait
               Un autre problème se pose lorsque le modèle     la preuve statistique qu'une politique gouvernemen-
            d'apprentissage automatique ne prend pas en        tale provoquait un impact disparate .
                                                                                              135
            compte un ensemble de facteurs suffisamment large    Il est plus difficile d'évaluer l'impact disparate,
            pour garantir que les membres d'un groupe proté-   et partant les biais, lorsque des ordinateurs sont
            gé sont évalués avec autant de précision que les   impliqués. Il peut par ailleurs s'avérer difficile, voire
            autres. Un modèle peut disposer d'un nombre limité   impossible, de divulguer et d'expliquer le processus
            de données de crédit sur les membres d'un groupe   de sélection par algorithme. Cependant, lorsqu'il
            défavorisé parce qu'ils sont moins nombreux à avoir   peut être démontré qu'un modèle produit des résul-
            emprunté par le passé. Si les algorithmes sont entraî-  tats discriminatoires, il est possible qu'il enfreigne
            nés à partir d'un plus grand volume de données d'en-  également les lois interdisant la discrimination, bien
            trée provenant d'un certain groupe (plutôt que d'un   que cela puisse être difficile à prouver, notamment
            autre), ils peuvent produire des résultats favorisant   lorsque des justifications telles que la nécessité com-
            ce groupe au détriment d'un autre.                 merciale entrent en jeu .
                                                                                   136
               En outre, les modèles d'apprentissage automa-     On peut parler de sélection discriminatoire sans
            tique pourraient être utilisés pour masquer délibé-  que des groupes protégés soient impliqués. Par
            rément la discrimination. Cela pourrait se produire   exemple, lorsque les algorithmes des services finan-
            si les données d'apprentissage sont volontairement   ciers numériques déduisent à partir des données uti-



           32    Mégadonnées, apprentissage automatique, protection des usagers et confidentialité
   29   30   31   32   33   34   35   36   37   38   39