Page 38 - Mégadonnées, apprentissage automatique, protection des usagers et confidentialité
P. 38
Figure 3 – Processus de pseudonymisation. Source: KIProtect
mations d'identification directe et indirecte dans La désidentification est l'un des moyens par les-
un ensemble de données, ou à introduire d'autres quels les organisations peuvent se conformer aux
obstacles (rendant l'identification d'une personne exigences de "minimisation des données" des lois sur
statistiquement improbable) : la protection des données, c'est-à-dire ne recueillir,
145
ne conserver et n'utiliser que les données person-
• Les données d'identification directe permettent nelles strictement nécessaires et pertinentes pour
d'identifier une personne sans informations l'objectif défini (voir section 5.1).
supplémentaires ou grâce à des informations La désidentification élimine rarement le risque
du domaine public (par exemple, son nom, son de réidentification. Une réidentification est possible
numéro de téléphone, son adresse électronique, lorsque le processus de désidentification a été mis en
sa photographie, son numéro de sécurité sociale œuvre ou contrôlé de manière inadéquate, ou qu'il
ou ses identifiants biométriques). est possible de relier les données désidentifiées à des
• Les données d'identification indirecte com- données personnelles déjà connues ou à des infor-
prennent les attributs qui peuvent être utilisés mations accessibles au public. Une désidentification
pour identifier une personne (son âge, sa loca- efficace nécessite une excellente compréhension des
lisation et autres caractéristiques personnelles données et de l'écosystème des données au sens
uniques). large, y compris des raisons pour lesquelles des par-
ties adverses pourraient chercher à réidentifier cer-
Alors que la désidentification implique la suppres- taines personnes, et des moyens qu'elles pourraient
sion de ces deux catégories de données, la pseudo- employer.
nymisation ne supprime que les données d'identifi- Certains experts critiquent l'inefficacité de la
cation directe, de sorte que les données à caractère désidentification et la promotion d'un faux sentiment
personnel ne peuvent être attribuées à une personne de sécurité reposant sur des modèles irréalistes et
spécifique sans l'utilisation d'informations complé- artificiellement limités de ce que pourrait faire une
mentaires. Ces informations supplémentaires sont partie adverse . Reprenons un célèbre exemple
147
conservées séparément et protégées par des de 1997: en reliant des données de santé dépourvues
mesures techniques et administratives visant à d'identifiants personnels à des données d'inscription
empêcher une telle attribution . Le processus de sur les listes électorales accessibles au public, il a été
146
pseudonymisation de base n'est pas compliqué; il possible d'identifier le gouverneur William Weld du
suffit de substituer des attributs alternatifs: Massachusetts et de faire ainsi le rapprochement
36 Mégadonnées, apprentissage automatique, protection des usagers et confidentialité