Page 38 - Mégadonnées, apprentissage automatique, protection des usagers et confidentialité
P. 38

Figure 3 – Processus de pseudonymisation. Source: KIProtect
































            mations d'identification directe et indirecte dans   La désidentification est l'un des moyens par les-
            un ensemble de données, ou à introduire d'autres   quels les organisations peuvent se conformer aux
            obstacles  (rendant  l'identification  d'une  personne   exigences de "minimisation des données" des lois sur
            statistiquement improbable) :                      la protection des données, c'est-à-dire ne recueillir,
                                     145
                                                               ne conserver et n'utiliser que les données person-
            •   Les données d'identification directe permettent   nelles strictement nécessaires et pertinentes pour
                d'identifier  une personne  sans informations   l'objectif défini (voir section 5.1).
                supplémentaires  ou  grâce  à  des  informations   La désidentification élimine rarement le risque
                du domaine public (par exemple, son nom, son   de réidentification. Une réidentification est possible
                numéro de téléphone, son adresse électronique,   lorsque le processus de désidentification a été mis en
                sa photographie, son numéro de sécurité sociale   œuvre ou contrôlé de manière inadéquate, ou qu'il
                ou ses identifiants biométriques).             est possible de relier les données désidentifiées à des
            •   Les données d'identification indirecte  com-   données personnelles déjà connues ou à des infor-
                prennent les attributs qui peuvent être utilisés   mations accessibles au public. Une désidentification
                pour identifier une personne (son âge, sa loca-  efficace nécessite une excellente compréhension des
                lisation et  autres  caractéristiques  personnelles   données  et  de  l'écosystème  des  données  au  sens
                uniques).                                      large, y compris des raisons pour lesquelles des par-
                                                               ties adverses pourraient chercher à réidentifier cer-
            Alors que la désidentification implique la suppres-  taines personnes, et des moyens qu'elles pourraient
            sion de ces deux catégories de données, la pseudo-  employer.
            nymisation ne supprime que les données d'identifi-   Certains experts critiquent l'inefficacité de la
            cation directe, de sorte que les données à caractère   désidentification et la promotion d'un faux sentiment
            personnel ne peuvent être attribuées à une personne   de  sécurité  reposant  sur  des  modèles  irréalistes  et
            spécifique sans l'utilisation d'informations complé-  artificiellement limités de ce que pourrait faire une
            mentaires. Ces informations supplémentaires sont   partie adverse . Reprenons un célèbre exemple
                                                                            147
            conservées séparément et protégées par des         de 1997: en reliant des données de santé dépourvues
            mesures techniques et administratives visant à     d'identifiants personnels à des données d'inscription
            empêcher une telle attribution . Le processus de   sur les listes électorales accessibles au public, il a été
                                        146
            pseudonymisation de base n'est pas compliqué; il   possible d'identifier le gouverneur William Weld du
            suffit de substituer des attributs alternatifs:    Massachusetts et de faire ainsi le rapprochement



           36    Mégadonnées, apprentissage automatique, protection des usagers et confidentialité
   33   34   35   36   37   38   39   40   41   42   43