Page 39 - Mégadonnées, apprentissage automatique, protection des usagers et confidentialité
P. 39

Figure 4 – Identification du gouverneur Weld à partir de quatre attributs


























            avec son dossier médical. (Celui-ci avait auparavant   particulière, peuvent être identifiées à l'aide des lieux
            assuré à ses électeurs que leurs données de santé   fréquentés (clinique d'avortement, mosquée, etc.).
            étaient parfaitement confidentielles .)              Il existe des mesures pour réduire ces risques,
                                           148
            Une étude réalisée en  2013 révèle que 95% des     par exemple: accepter des aperçus plutôt que des
            traces de mobilité sont  individualisables grâce à   ensembles de données complets; n'accepter que
            quatre  points  spatiotemporels  aléatoires  (données   des données qui ont déjà été agrégées ou désiden-
            et heure), et que plus de 50% des utilisateurs sont   tifiées; appliquer des filtres supplémentaires lorsque
            individualisables à partir de deux  points choisis au   les données proviennent de certains dispositifs; n'ac-
            hasard (qui sont généralement le domicile et le lieu   cepter que des données géoclôturées; supprimer le
            de travail) . Des études ultérieures ont obtenu des   domicile, le lieu de travail et les lieux sensibles; limiter
                     149
            résultats similaires en utilisant de grands ensembles   la durée de conservation des données; et "brouiller"
            de données (par exemple, un million de personnes   ou "flouter" les ensembles de données.
            en Amérique latine) et en appliquant cette métho-    L'anonymisation implique l'élimination ou la trans-
            dologie aux données de transactions bancaires. Elles   formation des données d'identification directe et indi-
            ont montré que quatre points spatiotemporels suffi-  recte. Alors que la pseudonymisation et la désidenti-
            saient pour identifier 90% des utilisateurs de cartes   fication impliquent des procédures et des contrôles
            de crédit .                                        techniques, institutionnels et juridiques pour empê-
                    150
               Des données plus riches permettent d'identifier   cher les employés et les parties tierces (tels que les
            un individu grâce à un ensemble de champs ou d'at-  chercheurs) de réidentifier les personnes, l'anonymi-
            tributs, par exemple le code postal, la date de nais-  sation – une fois réalisée – ne nécessite aucune de
            sance et le genre.                                 ces mesures supplémentaires. Elle limite cependant
               Les données de géolocalisation comportent des   l'utilité des données. Plus  les données sont riches,
            risques particuliers d'identification ou de réidenti-  plus elles sont utiles.
            fication des personnes. Il est possible de combiner
            les données d'un utilisateur liées à un identifiant per-  Amélioration des approches en matière de risque
            manent et non unique avec d'autres données afin de   de réidentification
            dresser le profil détaillé d'une personne. Même les   On assiste à l'émergence de technologies et de
            données de géolocalisation peuvent, à elles seules,   critères qui visent à préserver la richesse des
            être utilisées pour identifier une personne, car les   données tout en réduisant l'identifiabilité des indivi-
            deux endroits où elle se trouve le plus souvent sont   dus. Par exemple, la "confidentialité différentielle" a
            généralement son domicile et son lieu de travail. Les   gagné en popularité depuis qu'Apple a annoncé s'en
            données sensibles concernant une personne, qui     servir pour anonymiser les données de ses utilisa-
            renseignent par exemple sur une condition médicale   teurs . La confidentialité différentielle permet d'éva-
                                                                   151
                                                               luer la qualité de l'anonymisation des données. Elle



                                             Mégadonnées, apprentissage automatique, protection des usagers et confidentialité  37
   34   35   36   37   38   39   40   41   42   43   44