Page 50 - Mégadonnées, apprentissage automatique, protection des usagers et confidentialité
P. 50

dommages et intérêts en cas d'atteinte à la vie privée   les données personnelles sont prises en compte –
            et à la sécurité des données. La présente section   et à quelles fins – et dont elles sont protégées (par
            examine les différentes mesures que les entreprises   chiffrement ou autre), ainsi que leur traçabilité. La
            peuvent prendre pour atténuer ces risques.         documentation permet une révision et une mainte-
                                                               nance efficaces. Il s'agira notamment d'évaluer l'ex-
            6�1  Assurer la gestion des risques                haustivité, l'exactitude, la cohérence, l'opportunité, la
            Une approche courante en cas d'incertitude est d'ap-  duplication, la validité, la disponibilité et l'origine des
            pliquer des cadres et des processus de gestion des   données d'entrée. Il peut également être important
            risques. Une bonne conception de modèle de méga-   de mettre en place des mécanismes permettant de
            données incorpore donc la gestion des risques . Par   tester, d'actualiser et de contrôler le modèle au fil du
                                                     211
            exemple, certains fournisseurs de services financiers,   temps.
            comme Mastercard, appliqueront un processus inter-   Du côté des données de sortie, divers processus
            sectoriel d'exploration de données  (Cross-Industry   peuvent être appliqués pour réduire le risque de voir
            Standard Process for Data Mining, ou CRISP/DM), qui   les modèles d'apprentissage automatique aboutir
            fournit une approche structurée de la planification   à des résultats défavorables. Des mécanismes de
            des projets d'exploration de données .             détection des biais peuvent être mis en place pour
                                             212
               Ces cadres et processus peuvent être utilisés pour   garantir qu'aucun groupe de population n'est dis-
            évaluer les risques liés à la vie privée et à la discri-  criminé, ou du moins que les biais sont quantifiés et
            mination des usagers, comme tout autre risque.     réduits au maximum. Il peut parfois être nécessaire
            Le National Institute of Standards and Technology   de restreindre l'utilisation de certains types de don-
            des États-Unis a récemment entrepris d'élaborer    nées dans le modèle. Les données de sortie peuvent
            un cadre pour la protection de la vie privée , axé   également  être  analysées  pour  détecter  les  proxys
                                                    213
            sur des approches de gestion des risques calquées   susceptibles de conduire à des discriminations,
            sur son cadre de cybersécurité. Ce cadre souligne   basées notamment sur le genre, l'appartenance
            l'importance  d'accorder  la  priorité  à  la  gestion  des   ethnique ou encore l'origine géographique (code
            risques plutôt qu'à des stratégies de conformité   postal). Cette démarche suppose que des avocats
            visant à répondre au strict minimum.               renseignent les parties prenantes sur les types de
               Les processus de gestion des risques relatifs aux   caractéristiques qui constitueraient des fondements
            systèmes d'apprentissage automatique peuvent       illégaux favorisant la discrimination. Une surveillance
            inclure la documentation des objectifs et des hypo-  constante, grâce à une représentation statistique
            thèses formulées, et l'utilisation des "trois lignes de   des données de sortie, devrait également améliorer
            défense" qui garantissent la séparation des éléments   la détection des anomalies, des boucles de rétroac-
            suivants (par processus, rôle, partie prenante et   tion et d'autres comportements répréhensibles. Là
            mesure incitative):                                encore, documenter ces processus et effectuer des
                                                               tests en continu permettra d'améliorer et d'élargir la
            •   élaboration  et expérimentation d'un modèle    compréhension des risques présentés par un modèle
                d'apprentissage automatique;                   donné.
            •   validation et examen juridique dudit modèle; et  L'évaluation des risques s'étend aux données
            •   vérification périodique tout au long de son cycle   d'entrée  et  de  sortie,  ainsi  qu'à  la  création  et  au
                de vie .                                       fonctionnement des algorithmes. L'institut de
                     214
                                                               recherche  AINow  a proposé que les organismes
                                                                              217
            Le suivi, l'amélioration et la responsabilisation conti-  publics procèdent à des "évaluations de l'impact
            nus des systèmes d'apprentissage automatique sont   algorithmique", y compris lors de l'acquisition de
            tributaires de la documentation de ces objectifs .  données et  de logiciels, et lors du  fonctionnement
                                                      215
            La gestion des risques peut s'appliquer aux données   des processus décisionnels automatisés, dans le
            d'entrée et de sortie des modèles d'apprentissage   cadre d'un vaste ensemble de mesures de respon-
            automatique :                                      sabilisation .
                                                                         218
                       216
               En ce qui concerne les données d'entrée, l'atté-  Les responsables du traitement des données
            nuation des risques commencera par la consignation   doivent définir conjointement les résultats escomp-
            des prérequis du modèle (par exemple, le degré d'ac-  tés ainsi que les résultats accidentels à éviter (en col-
            tualité des données, leurs caractéristiques et leurs   laboration avec les équipes chargées des questions
            utilisations), le degré de dépendance des systèmes   juridiques et de la conformité), et être prêts à corriger
            environnants à l'égard des données, la manière dont   ou à retirer tout modèle problématique de son utili-



           48    Mégadonnées, apprentissage automatique, protection des usagers et confidentialité
   45   46   47   48   49   50   51   52   53   54   55