Page 50 - Mégadonnées, apprentissage automatique, protection des usagers et confidentialité
P. 50
dommages et intérêts en cas d'atteinte à la vie privée les données personnelles sont prises en compte –
et à la sécurité des données. La présente section et à quelles fins – et dont elles sont protégées (par
examine les différentes mesures que les entreprises chiffrement ou autre), ainsi que leur traçabilité. La
peuvent prendre pour atténuer ces risques. documentation permet une révision et une mainte-
nance efficaces. Il s'agira notamment d'évaluer l'ex-
6�1 Assurer la gestion des risques haustivité, l'exactitude, la cohérence, l'opportunité, la
Une approche courante en cas d'incertitude est d'ap- duplication, la validité, la disponibilité et l'origine des
pliquer des cadres et des processus de gestion des données d'entrée. Il peut également être important
risques. Une bonne conception de modèle de méga- de mettre en place des mécanismes permettant de
données incorpore donc la gestion des risques . Par tester, d'actualiser et de contrôler le modèle au fil du
211
exemple, certains fournisseurs de services financiers, temps.
comme Mastercard, appliqueront un processus inter- Du côté des données de sortie, divers processus
sectoriel d'exploration de données (Cross-Industry peuvent être appliqués pour réduire le risque de voir
Standard Process for Data Mining, ou CRISP/DM), qui les modèles d'apprentissage automatique aboutir
fournit une approche structurée de la planification à des résultats défavorables. Des mécanismes de
des projets d'exploration de données . détection des biais peuvent être mis en place pour
212
Ces cadres et processus peuvent être utilisés pour garantir qu'aucun groupe de population n'est dis-
évaluer les risques liés à la vie privée et à la discri- criminé, ou du moins que les biais sont quantifiés et
mination des usagers, comme tout autre risque. réduits au maximum. Il peut parfois être nécessaire
Le National Institute of Standards and Technology de restreindre l'utilisation de certains types de don-
des États-Unis a récemment entrepris d'élaborer nées dans le modèle. Les données de sortie peuvent
un cadre pour la protection de la vie privée , axé également être analysées pour détecter les proxys
213
sur des approches de gestion des risques calquées susceptibles de conduire à des discriminations,
sur son cadre de cybersécurité. Ce cadre souligne basées notamment sur le genre, l'appartenance
l'importance d'accorder la priorité à la gestion des ethnique ou encore l'origine géographique (code
risques plutôt qu'à des stratégies de conformité postal). Cette démarche suppose que des avocats
visant à répondre au strict minimum. renseignent les parties prenantes sur les types de
Les processus de gestion des risques relatifs aux caractéristiques qui constitueraient des fondements
systèmes d'apprentissage automatique peuvent illégaux favorisant la discrimination. Une surveillance
inclure la documentation des objectifs et des hypo- constante, grâce à une représentation statistique
thèses formulées, et l'utilisation des "trois lignes de des données de sortie, devrait également améliorer
défense" qui garantissent la séparation des éléments la détection des anomalies, des boucles de rétroac-
suivants (par processus, rôle, partie prenante et tion et d'autres comportements répréhensibles. Là
mesure incitative): encore, documenter ces processus et effectuer des
tests en continu permettra d'améliorer et d'élargir la
• élaboration et expérimentation d'un modèle compréhension des risques présentés par un modèle
d'apprentissage automatique; donné.
• validation et examen juridique dudit modèle; et L'évaluation des risques s'étend aux données
• vérification périodique tout au long de son cycle d'entrée et de sortie, ainsi qu'à la création et au
de vie . fonctionnement des algorithmes. L'institut de
214
recherche AINow a proposé que les organismes
217
Le suivi, l'amélioration et la responsabilisation conti- publics procèdent à des "évaluations de l'impact
nus des systèmes d'apprentissage automatique sont algorithmique", y compris lors de l'acquisition de
tributaires de la documentation de ces objectifs . données et de logiciels, et lors du fonctionnement
215
La gestion des risques peut s'appliquer aux données des processus décisionnels automatisés, dans le
d'entrée et de sortie des modèles d'apprentissage cadre d'un vaste ensemble de mesures de respon-
automatique : sabilisation .
218
216
En ce qui concerne les données d'entrée, l'atté- Les responsables du traitement des données
nuation des risques commencera par la consignation doivent définir conjointement les résultats escomp-
des prérequis du modèle (par exemple, le degré d'ac- tés ainsi que les résultats accidentels à éviter (en col-
tualité des données, leurs caractéristiques et leurs laboration avec les équipes chargées des questions
utilisations), le degré de dépendance des systèmes juridiques et de la conformité), et être prêts à corriger
environnants à l'égard des données, la manière dont ou à retirer tout modèle problématique de son utili-
48 Mégadonnées, apprentissage automatique, protection des usagers et confidentialité