
Code-Garage #93 - Comprendre la ré-identification des données
Durée: 12m12s
Date de sortie: 11/03/2024
Une technique qui permet de retrouver des informations personnelles basées sur des informations anonymisées !
Notes de l'épisode :
Notes de l'épisode :
- Article d'origine : https://code-garage.fr/blog/qu-est-ce-que-la-re-identification-des-donnees
- DEFCON 17 : https://www.silicon.co.uk/security/defcon-anonymous-browsing-data-218871
- Plausible : https://code-garage.fr/blog/plausible-analyse-audience-compatible-rgpd/
- Le fingerprinting : https://code-garage.fr/blog/le-fingerprinting-ou-comment-tracker-un-utilisateur-sans-cookies
Salut et bienvenue dans ce nouvel épisode du podcast de Code Garage. Aujourd'hui,
on va parler de la réidentification des données, ce que c'est et l'impact que ça peut avoir,
notamment sur votre conformité à la RGPD. Mais avant de rentrer dans le vif du sujet,
laissez-moi vous parler de notre sponsor du jour. Il y a quelques temps, j'ai essayé de trouver une
solution pour dynamiser un petit peu ma journée et éviter de rester trop statique.
Certes, j'avais déjà un bureau à site bout, mais en vrai, ça ne fait pas du tout,
on n'a pas de mouvement plus que ça, et je voulais prendre un tapis de marche,
et j'ai découvert une startup en France qui fait un produit encore mieux. C'est un pédalier de
bureau qui est ultra qualitatif et surtout qui est entièrement fabriqué en France.
La startup s'appelle EVEA.io pour leur site, et vous trouverez des pédaliers,
ils sont ultra jolis en plus sous le bureau, ça donne magnifique, et vous avez jusqu'à
5 puissance. Vous pouvez commencer un petit peu tranquille le matin et accélérer,
donner un petit peu plus d'effort l'après-midi. Ça vous dynamise, ça vous fait même l'effet
de prendre des cafés, ça vous accélère un petit peu le rythme cardiaque, même si vous
pédalez pas vite. Franchement, le produit, il est canon et j'ai la chance d'avoir une réduction
pour la communauté Code Garage. Donc avec le code Code Garage, tout attaché en majuscule,
sur le site EVEA.io, vous avez 20 euros d'offaires sur la version B2C et sur la version B2B,
qui est encore un petit peu plus qualitatif, et en plus vous pouvez avoir un abonnement,
voilà de la location par abonnement, etc. Vous avez jusqu'à 50 euros de réduction
avec le code, toujours Code Garage, en attaché en majuscule. Franchement, tester, c'est vraiment
du feu, ce produit, moi je l'utilise depuis plusieurs mois maintenant, et c'est vraiment
trop canon. Maintenant, place à l'épisode. Alors l'épisode du jour, il porte sur la
réidentification des données. Alors si on prend le site de l'ACNIL, l'anonymisation d'une
donnée, elle est définie comme un traitement qui consiste à utiliser un ensemble de techniques
de manière à rendre impossible en pratique toute identification de la personne par quelques
moyens que ce soit et de manière irréversible. Mais en réalité, la majorité des systèmes
d'information, ils pratiquent plutôt la pseudonymisation. Ça consiste à retirer tous les liens entre les
données d'une personne et les informations qui peuvent l'identifier, nom, prénom, email,
téléphone, etc. et à remplacer ces informations par des identifiants génériques, UID, H,
séquence alfa numérique, peu importe, pour justement rendre ces données pseudonymes. Le problème
avec les données pseudonymes, c'est qu'à partir d'une certaine quantité d'informations qui sont
reliées à un même identifiant anonyme, il est parfois possible de réidentifier ces fameuses
données. Si on prend un exemple théorique, mais qui en réalité n'est pas si théorique que ça,
puisque dans certaines industries, ça se pratique malheureusement. Donc la trésorique va être basée
sur des informations de santé d'une personne qui est pseudonymisée. On ne connaît pas son nom,
son prénom. Simplement, toutes ces données sont reliées à un seul identifiant. Donc on prend des
données sexe masculin, nationalité française, taille 1,90 m, poids 110 kg, IMC 30,5, avec la taille
le poids en LIMC, date de naissance 26 novembre 1993 et sa fiche médicale recense trois pathologies
hypermétropiques liées aux yeux, le d'altonisme qui est aussi lié aux yeux et du diabète.
Et bien en fait, il suffit de trouver les pourcentages qui sont liés à ces caractéristiques dans la
population française, comme on a quelqu'un qui est de nationalité française. Donc par exemple,
le nombre de naissance en 1993 qui était de 711610, le pourcentage de diabétique 5,3%,
le percentage d'hypermétropie, 10% d'altonisme, 8%, l'IMC donc qui est qualifié comme l'IMC
Obésité qui caractérise 17% de la population et la taille supérieure à un mètre 90 qui représente
4,3% de la population. Et bien en calculant la probabilité cumulée de toutes ces données,
on tombe sur 2,2 personnes en France qui cumulent ce même profil de santé précis.
Ça veut dire que si on retrouve ce même profil d'un autre jeu de données,
il y a seulement une chance sur deux que la personne soit la même et qu'on puisse
réidentifier nos données à partir du moment où si on a d'autres données qui identifient cette
personne ailleurs, avec ces 7 de données, data 7, on va pouvoir lier ces deux personnes.
Donc là on est sur une chance sur deux, ce qui est quand même très proche mais on n'est pas à
donner supplémentaire, couleur de peau, couleur des yeux, des cheveux, type de diabète, etc.
pour avoir encore un pourcentage qui va nous permettre d'identifier parfaitement
uniquement ce profil. Alors vous comprenez maintenant comment ça fonctionne en partie,
en tout cas le concept de réidentification des données, mais on va maintenant prendre
un cas pratique. Là je vous ai pris un cas très théorique avec des données de santé, etc.
Mais on va prendre un cas pratique qui s'est réellement passé. En 2017, il y a deux chercheurs,
Svea Eckert et Andreas D.O.S. qui sont originaires d'Allemagne et ils ont présenté à la DEFCON 17
un exemple de réidentification des données très parlant, principalement pour deux raisons.
D'abord la masse de données utilisée et ensuite la qualité des informations récupérées. Si vous
voulez en savoir un petit peu plus que ce que moi je vais vous dire sur justement cette recherche
et sur cette expérience, je vous mettrai le lien vers un article qui parle justement spécifiquement
de ce cas. L'expérience se déroule sur des données anonymisées de 3 millions de citoyens
allemands et leur historique de navigation qui contient plus de 3 milliards d'URL visités.
Alors là on pourrait se dire, tiens on est dans l'illégalité complète, on achète de données,
sauf que non, ce sont des données alors on pourrait dire anonymes, en réalité pseudonymes,
mais surtout ce sont des données qui ont été achetées à des organismes, tout simplement
des entreprises qui font de la recole de données, là en l'occurrence basée sur des extensions
navigateurs qui récoltent les données, l'historique de navigation. Donc à l'époque en tout cas,
en plus il n'y avait rien d'illégal là dedans, malheureusement vous allez voir ça a des vraies
conséquences. Chaque URL est liée, donc chaque URL de l'historique, elle était liée à un identifiant
unique de navigation, mais comme je l'ai dit sans aucune donnée personnelle pour le relier
à une personne en particulier. Donc en théorie des données anonymisées pour respecter la vie privée
des utilisateurs. Et pourtant grâce à quelques techniques de réidentification dont on va parler
après, l'équipe a pu remonter des données très précises et parfois très très privées
sur des personnes comme par exemple les catégories pornographiques préférées d'un juge allemand,
les ordonnances médicales d'un premier ministre, les détails d'une enquête de police en cours de
résolution et encore d'autres informations si il y a des profils très importants des politiciens,
des chefs d'entreprise en Allemagne. Leur méthode principale, un simple paramètre du URL. En gros,
la plateforme de mise en relation professionnelle la plus populaire en Allemagne s'appelle GZING,
c'est l'équivalent de LinkedIn clairement, mais cette plateforme est possède un détail technique
qui paraît insignifiant au premier abord, c'est que lorsque vous visitez votre propre profil,
dans l'URL, il y a votre nom, votre prénom en général sur LinkedIn, c'est pareil. Sauf que la
plateforme GZING, quand vous visitez votre propre profil, elle injecte un paramètre du URL,
en le paramètre, et il n'est pas très clair de prix ma bord, c'est SC underscore OMXB underscore P.
Pour l'instant, ça ne dévoile rien, sauf que à chaque fois qu'on va avoir cette URL-là dans
l'historique de navigation d'une personne, eh bien chaque historique anonymisé, et tant qu'il a
ce paramètre, il pouvait être instantanément relié au profil GZING du propriétaire et comme
ce sont des profils où on affiche son vrai nom, son vrai prénom, ça a permis d'identifier
énormément de profils derrière ces historiques de navigation. À cause d'un simple choix technique,
les données de millions de citoyens ont donc pu être réidentifiées, ce qui, au lieu de la RGPD,
constitue des données personnelles et donc une violation de la réglementation.
Alors, il faut vraiment être vigilant sur ces choses-là, parce que si vous utilisez un moyen
de traçage de vos visiteurs, même si c'est simplement à défunt statistique, et que vous pensez
que vos données sont sûres, eh bien il se peut pourtant que vous stockez de données anonymes
en apparence, mais qui peuvent être réidentifiées à cause d'un paramètre URL ou de choses comme ça.
Le choix technique des outils de statistiques peuvent jouer un grand rôle dans votre conformité
finale vis-à-vis de l'RGPD, et puis même globalement, éthiquement, vis-à-vis de tous vos utilisateurs.
Alors, nous chez Code Garage, on utilise une plateforme que s'appelle plausible, ou plausible,
qui ne stocke que les données minimum pour suivre le trafic du site, et même les données de session
sont hachées, et il y a une empreinte qui change tous les jours, donc on ne peut pas
prendre une donnée d'un jour sur l'autre et les recouper ensemble, c'est absolument impossible.
Il y a de l'aléatoire dedans, donc ce ne sera pas possible. Si jamais ça vous intéresse
d'en savoir un petit peu plus sur ce outil, on a un article sur notre blog,
ce que je vous mettrai directement dans les notes de l'épisode.
Enfin, pour finir, si vous n'avez jamais entendu parler, il y a le concept du Fingerprinting,
qui consiste justement à réidentifier de manière unique la machine d'un utilisateur
grâce à différents points de données récupérées depuis navigateurs de la personne.
Ça, c'est pareil, c'est une autre méthode de réidentification. Ça nous fait penser un petit
peu au exemple avec les données de santé, sauf que là, au lieu que ça soit des données de santé,
c'est des données techniques liées à notre navigateur. Si vous n'êtes pas trop familiar
ou familiar avec le concept, je vous invite à écouter un précédent épisode où on a expliqué
exactement comment ça fonctionnait, quels étaient les données que nous donnait le navigateur pour
pouvoir faire de la réidentification, etc. Vous pouvez rechercher directement l'épisode
sur Spotify, Apple Podcast ou peu importe, mais je vous mettrai aussi la version texte de notre article
dans les notes de l'épisode. J'espère que grâce à cet épisode, vous aurez découvert ou appris
un petit peu plus sur le concept de la réidentification des données et l'impact que ça peut avoir.
Moi, je vous donne rendez-vous la semaine prochaine pour un prochain épisode du podcast,
mais surtout, n'hésitez pas que vous écoutiez ça sur Spotify, Google Podcast, Apple Podcast ou
des dix heures à nous mettre un avis à nous mettre cinq étoiles. Ça permet de faire remonter
le podcast dans les classements et ça permet évidemment de lui garder motivé à vous donner
toujours plus de sujets intéressants et aussi de nous donner de la visibilité pour de prochaines
interviews qui arriveront. Ça permet de convaincre plus facilement des personnes de venir dans le
podcast. Moi, je vous donne rendez-vous la semaine prochaine pour un prochain épisode du podcast ou
directement sur code-garage.fr pour retrouver tous les articles, les épisodes de podcast et aussi
toutes les formations complètes disponibles à partir de 19h89 par mois avec un abonnement unique.
Vous avez tous les cours, les exercices, les exemples, tout ce qu'il vous faut pour bien
apprendre. À la semaine prochaine, salut ! Ah, attendez, avant de partir, j'ai complètement
oublié, on vient de lancer un programme sur tout 2024 pour aider tous les devs qui cherchent un
emploi depuis plus de trois mois. On sait que la situation pour les développeurs et développeurs
juniors est compliquée en ce moment et donc je vous invite à vous rendre directement sur
la page des tarifs de la plateforme et vous trouverez tout un explicatif du programme. En gros,
ça vous permet d'accéder à toute la plateforme pour 4,99€ par mois au lieu de 19,99€,
simplement si vous êtes chercheur d'emploi ou chercheuse d'emploi depuis plus de trois mois.
C'est vraiment une occasion à pas louper, surtout pour améliorer l'attractivité de son profil auprès
des recruteurs. Donc il suffit juste de nous envoyer votre profil LinkedIn, vous allez voir,
c'est super simple. Notre objectif sur 2024, c'est d'aider au moins 500 chercheurs et chercheuses
d'emploi dans le devs à trouver un emploi. A la semaine prochaine, salut !
Episode suivant:
Les infos glanées
Code-Garage
Découvrons ensemble des sujets passionnants autour du métier de dev et de la programmation en général !
Tags
Interview de Jérôme Heissler, co-fondateur de PerfectPost