Page 39 - Mégadonnées, apprentissage automatique, protection des usagers et confidentialité
P. 39
Figure 4 – Identification du gouverneur Weld à partir de quatre attributs
avec son dossier médical. (Celui-ci avait auparavant particulière, peuvent être identifiées à l'aide des lieux
assuré à ses électeurs que leurs données de santé fréquentés (clinique d'avortement, mosquée, etc.).
étaient parfaitement confidentielles .) Il existe des mesures pour réduire ces risques,
148
Une étude réalisée en 2013 révèle que 95% des par exemple: accepter des aperçus plutôt que des
traces de mobilité sont individualisables grâce à ensembles de données complets; n'accepter que
quatre points spatiotemporels aléatoires (données des données qui ont déjà été agrégées ou désiden-
et heure), et que plus de 50% des utilisateurs sont tifiées; appliquer des filtres supplémentaires lorsque
individualisables à partir de deux points choisis au les données proviennent de certains dispositifs; n'ac-
hasard (qui sont généralement le domicile et le lieu cepter que des données géoclôturées; supprimer le
de travail) . Des études ultérieures ont obtenu des domicile, le lieu de travail et les lieux sensibles; limiter
149
résultats similaires en utilisant de grands ensembles la durée de conservation des données; et "brouiller"
de données (par exemple, un million de personnes ou "flouter" les ensembles de données.
en Amérique latine) et en appliquant cette métho- L'anonymisation implique l'élimination ou la trans-
dologie aux données de transactions bancaires. Elles formation des données d'identification directe et indi-
ont montré que quatre points spatiotemporels suffi- recte. Alors que la pseudonymisation et la désidenti-
saient pour identifier 90% des utilisateurs de cartes fication impliquent des procédures et des contrôles
de crédit . techniques, institutionnels et juridiques pour empê-
150
Des données plus riches permettent d'identifier cher les employés et les parties tierces (tels que les
un individu grâce à un ensemble de champs ou d'at- chercheurs) de réidentifier les personnes, l'anonymi-
tributs, par exemple le code postal, la date de nais- sation – une fois réalisée – ne nécessite aucune de
sance et le genre. ces mesures supplémentaires. Elle limite cependant
Les données de géolocalisation comportent des l'utilité des données. Plus les données sont riches,
risques particuliers d'identification ou de réidenti- plus elles sont utiles.
fication des personnes. Il est possible de combiner
les données d'un utilisateur liées à un identifiant per- Amélioration des approches en matière de risque
manent et non unique avec d'autres données afin de de réidentification
dresser le profil détaillé d'une personne. Même les On assiste à l'émergence de technologies et de
données de géolocalisation peuvent, à elles seules, critères qui visent à préserver la richesse des
être utilisées pour identifier une personne, car les données tout en réduisant l'identifiabilité des indivi-
deux endroits où elle se trouve le plus souvent sont dus. Par exemple, la "confidentialité différentielle" a
généralement son domicile et son lieu de travail. Les gagné en popularité depuis qu'Apple a annoncé s'en
données sensibles concernant une personne, qui servir pour anonymiser les données de ses utilisa-
renseignent par exemple sur une condition médicale teurs . La confidentialité différentielle permet d'éva-
151
luer la qualité de l'anonymisation des données. Elle
Mégadonnées, apprentissage automatique, protection des usagers et confidentialité 37