Page 40 - Mégadonnées, apprentissage automatique, protection des usagers et confidentialité
P. 40

permet de quantifier le volume d'informations que la   que représente la mise en place de leur propre capa-
            méthode d'anonymisation fera fuir au sujet d'un indi-  cité interne en matière de protection de la vie privée,
            vidu donné ajouté à un ensemble de données à l'aide   qui n'est pas leur activité principale.
            de  cette  méthode.  Elle  repose  sur  des  compromis   Les méthodes de désidentification, de pseudo-
            entre utilité et commodité, en introduisant un bruit   nymisation et d'anonymisation doivent non seule-
            aléatoire pour éliminer les différences en matière de   ment être incluses dans le codage de la gestion des
            divulgation entre un individu dont les données sont   ensembles de données, mais aussi dans l'organisa-
            incluses dans l'analyse des mégadonnées et celui qui   tion administrative. Ainsi, Apple soumet les don-
            choisit de s'en retirer .                          nées de l'utilisateur à un processus de confidentia-
                               152
               Lorsque le nombre d'individus concernés est suf-  lité différentielle sur l'appareil de ce dernier avant
            fisamment élevé, alors que le bruit statistique légè-  de les anonymiser (en supprimant les adresses IP et
            rement biaisé masque les données des individus, le   autres métadonnées), ainsi que de les recueillir, de
            bruit s'étale sur un grand nombre de points de don-  les agréger et de les analyser. Les étapes d'ingestion
            nées, ce  qui  permet  de détecter des  formes et  de   et d'agrégation sont toutes deux réalisées dans un
            dégager des informations significatives. Cela offre   environnement à accès limité, de sorte que même les
            un moyen d'évaluer les préjudices cumulatifs sur plu-  données privatisées ne sont pas facilement acces-
            sieurs utilisations, ce qui permet de meilleures dis-  sibles aux employés d'Apple .
                                                                                        155
            cussions et décisions au sujet des compromis entre   Outre ce type de mesures, une politique de "sépa-
            la vie privée et l'utilité statistique.            ration des tâches" peut réduire les risques pour la vie
               Des mécanismes de confidentialité différentielle   privée lors du traitement des données personnelles.
            des bases de données peuvent rendre les don-       Cela restreint le pouvoir de chaque administrateur à
            nées confidentielles largement disponibles aux fins   un rôle donné, les fonctions d'autres administrateurs
            d'une analyse précise, sans avoir recours à des salles   étant limitées de la même manière, ce qui réduit le
            blanches, à des accords d'utilisation ou des plans   risque posé par un administrateur malveillant. Dans
            de protection des données, ni à des aperçus limités.   le même ordre d'idées, une politique appliquant le
            Cette approche résout ainsi le paradoxe consistant à   principe de "moindre privilège" viserait à garantir que
            ne rien apprendre sur un individu tout en obtenant   chaque administrateur ne dispose que des pouvoirs
            des informations utiles sur toute une population .   nécessaires aux fonctions qui lui ont été déléguées.
                                                      153
               Le contrôle de la divulgation statistique et des   En fin de compte, la difficulté d'empêcher la réi-
            déductions, l'exploration de données respectueuse   dentification montre qu'il n'est peut-être pas judi-
            de la vie privée et l'analyse de données privées sont   cieux d'avoir une vision manichéenne de la désiden-
            d'autres techniques algorithmiques qui peuvent être   tification,  et  que  le  débat  sur  l'efficacité  de  ces
            appliquées à de grandes bases de données en uti-   techniques doit être abordé d'une manière plus
            lisant des méthodes statistiques en vue de gérer la   nuancée, en acceptant l'idée que la désidentification
            confidentialité.                                   peut parfois fournir des réponses acceptables . En
                                                                                                        156
               Le  marché  des  services  de  désidentification,  de   effet, Cynthia Dwork suggère que l'utilisation conti-
            pseudonymisation et d'anonymisation est en pleine   nue de données exactes finira par porter atteinte à la
            expansion. Par exemple, la société allemande KIPro-  vie privée et que les techniques susvisées atténuent
            tect  permet aux entreprises qui travaillent avec   le risque sans toutefois l'éliminer :
                                                                                           157
                154
            de  grands  ensembles de  données de protéger ces    L'utilité des données finira par s'éroder: la loi fonda-
            dernières, en intégrant par le biais d'API le traite-  mentale de la récupération de l'information dispose
            ment des données de l'entreprise cliente pour repé-  que des réponses trop précises à un trop grand
            rer et protéger les données privées ou sensibles en   nombre de questions anéantiront la confidentialité
            les transformant à l'aide de techniques de pseudo-   de manière spectaculaire. L'objectif de la recherche
            nymisation, d'anonymisation et de chiffrement. La    algorithmique sur la confidentialité différentielle est
            prise en charge de nombreux types de données et      de repousser cette fatalité aussi longtemps que
            de technologies de stockage (par exemple, Apache     possible.
            Kafka et Google Firebase) permet une utilisation     Dans  cette  optique,  la  réglementation  pourrait
            dans un large éventail de contextes. La disponibili-  chercher à s'appuyer moins sur le fait d'informer les
            té croissante de ces fournisseurs de services signi-  usagers que leurs données seront recueillies, analy-
            fie que les entreprises traitant des données peuvent   sées et partagées, ainsi que sur l'obtention de leur
            externaliser une grande partie de leurs besoins en   consentement à cet égard, et davantage sur la garan-
            matière de confidentialité, réduisant ainsi la charge   tie que les technologies d'amélioration de la confi-



           38    Mégadonnées, apprentissage automatique, protection des usagers et confidentialité
   35   36   37   38   39   40   41   42   43   44   45