Page 40 - Mégadonnées, apprentissage automatique, protection des usagers et confidentialité
P. 40
permet de quantifier le volume d'informations que la que représente la mise en place de leur propre capa-
méthode d'anonymisation fera fuir au sujet d'un indi- cité interne en matière de protection de la vie privée,
vidu donné ajouté à un ensemble de données à l'aide qui n'est pas leur activité principale.
de cette méthode. Elle repose sur des compromis Les méthodes de désidentification, de pseudo-
entre utilité et commodité, en introduisant un bruit nymisation et d'anonymisation doivent non seule-
aléatoire pour éliminer les différences en matière de ment être incluses dans le codage de la gestion des
divulgation entre un individu dont les données sont ensembles de données, mais aussi dans l'organisa-
incluses dans l'analyse des mégadonnées et celui qui tion administrative. Ainsi, Apple soumet les don-
choisit de s'en retirer . nées de l'utilisateur à un processus de confidentia-
152
Lorsque le nombre d'individus concernés est suf- lité différentielle sur l'appareil de ce dernier avant
fisamment élevé, alors que le bruit statistique légè- de les anonymiser (en supprimant les adresses IP et
rement biaisé masque les données des individus, le autres métadonnées), ainsi que de les recueillir, de
bruit s'étale sur un grand nombre de points de don- les agréger et de les analyser. Les étapes d'ingestion
nées, ce qui permet de détecter des formes et de et d'agrégation sont toutes deux réalisées dans un
dégager des informations significatives. Cela offre environnement à accès limité, de sorte que même les
un moyen d'évaluer les préjudices cumulatifs sur plu- données privatisées ne sont pas facilement acces-
sieurs utilisations, ce qui permet de meilleures dis- sibles aux employés d'Apple .
155
cussions et décisions au sujet des compromis entre Outre ce type de mesures, une politique de "sépa-
la vie privée et l'utilité statistique. ration des tâches" peut réduire les risques pour la vie
Des mécanismes de confidentialité différentielle privée lors du traitement des données personnelles.
des bases de données peuvent rendre les don- Cela restreint le pouvoir de chaque administrateur à
nées confidentielles largement disponibles aux fins un rôle donné, les fonctions d'autres administrateurs
d'une analyse précise, sans avoir recours à des salles étant limitées de la même manière, ce qui réduit le
blanches, à des accords d'utilisation ou des plans risque posé par un administrateur malveillant. Dans
de protection des données, ni à des aperçus limités. le même ordre d'idées, une politique appliquant le
Cette approche résout ainsi le paradoxe consistant à principe de "moindre privilège" viserait à garantir que
ne rien apprendre sur un individu tout en obtenant chaque administrateur ne dispose que des pouvoirs
des informations utiles sur toute une population . nécessaires aux fonctions qui lui ont été déléguées.
153
Le contrôle de la divulgation statistique et des En fin de compte, la difficulté d'empêcher la réi-
déductions, l'exploration de données respectueuse dentification montre qu'il n'est peut-être pas judi-
de la vie privée et l'analyse de données privées sont cieux d'avoir une vision manichéenne de la désiden-
d'autres techniques algorithmiques qui peuvent être tification, et que le débat sur l'efficacité de ces
appliquées à de grandes bases de données en uti- techniques doit être abordé d'une manière plus
lisant des méthodes statistiques en vue de gérer la nuancée, en acceptant l'idée que la désidentification
confidentialité. peut parfois fournir des réponses acceptables . En
156
Le marché des services de désidentification, de effet, Cynthia Dwork suggère que l'utilisation conti-
pseudonymisation et d'anonymisation est en pleine nue de données exactes finira par porter atteinte à la
expansion. Par exemple, la société allemande KIPro- vie privée et que les techniques susvisées atténuent
tect permet aux entreprises qui travaillent avec le risque sans toutefois l'éliminer :
157
154
de grands ensembles de données de protéger ces L'utilité des données finira par s'éroder: la loi fonda-
dernières, en intégrant par le biais d'API le traite- mentale de la récupération de l'information dispose
ment des données de l'entreprise cliente pour repé- que des réponses trop précises à un trop grand
rer et protéger les données privées ou sensibles en nombre de questions anéantiront la confidentialité
les transformant à l'aide de techniques de pseudo- de manière spectaculaire. L'objectif de la recherche
nymisation, d'anonymisation et de chiffrement. La algorithmique sur la confidentialité différentielle est
prise en charge de nombreux types de données et de repousser cette fatalité aussi longtemps que
de technologies de stockage (par exemple, Apache possible.
Kafka et Google Firebase) permet une utilisation Dans cette optique, la réglementation pourrait
dans un large éventail de contextes. La disponibili- chercher à s'appuyer moins sur le fait d'informer les
té croissante de ces fournisseurs de services signi- usagers que leurs données seront recueillies, analy-
fie que les entreprises traitant des données peuvent sées et partagées, ainsi que sur l'obtention de leur
externaliser une grande partie de leurs besoins en consentement à cet égard, et davantage sur la garan-
matière de confidentialité, réduisant ainsi la charge tie que les technologies d'amélioration de la confi-
38 Mégadonnées, apprentissage automatique, protection des usagers et confidentialité