Code-Garage #119 - Qu'est-ce qu'une donnée dérivée ?
Durée: 11m44s
Date de sortie: 18/03/2025
Qu'est-ce qu'une donnée dérivée, une donnée inférée ou une donnée déduite ? Qu'est-il possible de faire et quelles sont les implications pour votre vie privée ?
Liens de l'épisode :
- Profitez du prix de l'abonnement : https://code-garage.com/payment/pricing
- La ré-identification des données : https://code-garage.com/podcast/classic/episode-93
- Le fingerprinting : https://code-garage.com/podcast/classic/episode-57
- Notre cours sur le RGPD et le juridique pour les devs : https://code-garage.com/courses/juridique
Salut et bienvenue dans ce nouvel épisode du podcast de Code Garage. Je m'appelle Nicolas
Bondin-Bernard et aujourd'hui on va parler des données dérivées, des données inférées
et des données déduites en informatique. Alors je dis en informatique, en réalité c'est
plutôt en traitement de données au sens large. Ce concept, enfin ces concepts-là de traitement
des données, eh bien il peut même être fait à la main pour certains, pas tous, mais voilà.
Tant qu'on a des outils mathématiques ou des outils logiques à porter, c'est des
choses qu'on peut faire. Donc que ce soit dans le domaine informatique de l'analyse de données,
les données dérivées, inférées ou déduites en fait ça désigne des informations qui sont
obtenues non pas en les récupérant directement depuis un utilisateur, en lui demandant avec un
formulaire ou quoi que ce soit, mais on les obtient par traitement de données brutes. Donc de données
pour le coup qu'on a demandé ou récupéré depuis un utilisateur, eh bien on vient créer de nouvelles
données. Ça, ça joue vraiment un rôle complètement clé dans la prise de décision,
qu'elle soit algorithmique, qu'elle soit par intelligence artificielle, ou alors des fois ça
arrive aussi de l'optimisation, de la sécurité, de plein de choses, mais c'est vraiment des choses
qui se passent tous les jours avec vos données et c'est pour ça que je voulais vous en parler
aujourd'hui puisque je trouve que c'est un truc hyper important. Alors des données dérivées,
inférées ou déduites, les mots en fait ils sont très proches et on peut très facilement les
confondre, mais ils désignent quand même des choses un peu plus précises et ils ont vraiment
une signification. Donc une donnée dérivée en fait elle est obtenue en appliquant des
transformations ou des calculs sur des données existantes. Par exemple, là si on prend un cas
très très basique, si dans une base de données on a des prix hors-taque sur des produits et qu'on
a également le taux de TVA qui est applicable sur ce produit et dans un pays, eh bien on va pouvoir
dériver le prix TTC avec simplement une multiplication grossièrement. Donc ça c'est un
exemple très très basique d'une donnée dérivée d'une autre. Ensuite on a des données inférées,
là ça va concerner plutôt des informations qui sont déduites automatiquement par un algorithme
ou un modèle ou d'intégions artificielles ou des choses comme ça. Donc par exemple on va donner
tout l'historique d'achat d'un utilisateur à un modèle de deep learning par exemple et puis
l'algorithme va nous donner le prochain achat que la personne risque d'acheter. Ça c'est plutôt
ce qu'on va appeler une donnée inférée. Et ensuite on a une donnée déduite, la donnée déduite
avait suivre un raisonnement logique basé sur des règles prédéfinies. Donc par exemple si un
city commerce détecte eh bien que quelqu'un achète régulièrement des articles de sport,
bon bah on va en déduire facilement un intérêt pour le sport et peut-être d'autres trucs à côté,
le fitness, un sport en particulier. Et donc là on va pouvoir décider de lui pousser une pub ou une
autre ou peu importe. Alors évidemment comme je disais c'est très proche mais la distinction
faut vraiment la faire puisque donc pour les données dérivées c'est plutôt une transformation
mathématique, pour les données inférées de la modélisation ou de la corrélation et un raisonnement
logique pour les données déduites. Donc là je vous ai donné déjà quelques exemples très très
basiques mais vous allez voir que ça peut aller plus loin et que ça peut vraiment avoir un impact
dans vos vies et dans la manière dont eh bien simplement les systèmes d'information vous modélise
et vous connaissent. On prend un exemple très très simple ok de quelqu'un qui commande régulièrement
des protections hygiéniques on va dire sur Amazon par exemple. Ok qu'est ce qu'on va pouvoir déduire
de ces achats ? Bah on va pouvoir déduire un genre il y a de fortes chances que ce soit une
femme on va pouvoir en fonction de la fréquence eh bien déduire des cycles ok. Éventuellement on
va aussi pouvoir déduire une tranche d'âge hein parce que ça va être la période avant la
menopause et après le début des règles et selon l'arrêt de l'achat de ces protections hygiéniques
on va pouvoir déduire que la personne est enceinte alors il peut y avoir évidemment d'autres événements
mais tout ça à chaque fois c'est des choses avec des pourcentages on va dire de probabilité mais
parce que ça peut très bien être aussi un homme qui fait la commande ou peu importe voilà mais
c'est on va avoir quand même des pourcentages de chances très très élevés. C'est pour vous dire un
petit peu à partir d'un seul produit acheté qu'est ce qu'on va pouvoir inférer et donc à partir on
va dire potentiellement de la reprise de des des des pardon des achats des protections hygiéniques
on va pouvoir déduire eh bien potentiellement l'âge de l'enfant si jamais il n'y a jamais de reprise
de protection hygiénique c'est plutôt on va pouvoir déduire l'âge en fonction et bien du début de
la menopause voilà là je vous ai pris un exemple assez particulier mais c'est pour vous montrer avec
un seul achat un achat régulier que eh bien on va pouvoir déduire autant de choses alors est-ce que
ça marche que pour Amazon évidemment que non ça marche également pour une carte de fidélité si
vous prenez une carte de fidélité chez le clair au champ intermarché peu importe eh bien ils vont
faire tous ces calculs là en fonction de des achats que vous faites et puis ils vont vous pousser
des pubs des choses comme ça oh bah tiens vous dites tiens c'est étrange et puis le alors que j'ai
dit à personne que j'étais enceinte je commence à recevoir des pubs sur les couches sur les choses
comme ça et vous dites ah bah c'est sûr c'est mon téléphone ou c'est alexa qui m'écoute et
bah surprise c'est absolument pas ça c'est simplement toutes les données qui sont inférées à
partir de très de données très très très simple je vous donne ça mais ça s'étend évidemment
sur toute la population et c'est hyper important c'est aussi une petite ça vous donne une petite
clé de pourquoi je refuse systématiquement d'avoir une carte de fidélité parce que c'est
on achète vos données et on achète beaucoup de données sur vous dont des données que vous
saviez peut-être pas voilà et puis c'est des données qui vont être inférées évidemment en
fonction de de vous ok mais aussi du contexte extérieur si je prends un exemple à s'éclicher
aussi mais c'est juste pour vous donner une idée si jamais on correll des données avec par exemple
des achats toujours un pack de bière et des pizzas et avec et bah des matchs de foot qui
passe à la télé et vous achetez toujours le jour même ou la veille bon on va en déduire votre amour
pour le foot et on va pousser des ventes de maillots des ventes de ballons peu importe voilà
c'est vraiment un truc très simple mais c'est pour vous expliquer un petit peu donc là on a
plutôt parlé de données déduite parce que là on a fait avec des règles qui sont très très
simples des règles logiques et qui ont lié qui qui ont lié directement avec un comportement humain ou
la biologie humaine mais tout ça ça peut être fait en fois 10 fois 100 avec des données inférées
par des intelligences artificielles qui vont en fait créer des règles des habitudes des modèles
dont qu'on reproduit et dont on n'a même pas conscience alors là je pense que vous avez vite
compris là où on va c'est donc dans certaines applications c'est ultra intéressant par exemple
pour les détections de fraude et bien en fonction du type de paiement du nombre de paiements de
du pays dans lequel vous vous aimez tel paiement et vers lequel vous aimez tel paiement etc.
bah tout ça pour la détection de fraude c'est énorme et c'est vraiment hyper important et ça
peut être pour la détection même peut-être de spam téléphonique d'ailleurs si vous nous écoutez
et quelqu'un travaille dans la détection de spam téléphonique ça serait bien de faire un petit
truc parce que on en peut plus mais revenons au sujet tout ça ça peut être utilisé de
manière ultra vertueuse ok et souvent ça dépend très rapidement en fait du domaine dans lequel
vous travaillez si vous êtes dans l'éducation et vous utilisez et bien toutes ces données là
pour que les gens apprennent mieux et pour leur donner envie d'apprendre de nouvelles choses
etc bon on est tous d'accord que c'est plutôt positif dès que vous travaillez dans un truc où
c'est simplement pour faire vendre des trucs à gogo aux gens et leur faire dépenser tout leur
argent on est d'accord que c'est beaucoup moins vertueux alors qu'est ce que dit le rgpd à propos
de ça bien le rgpd y l'accord de trois droits fondamentaux aux utilisateurs concernant ses données
d'abord c'est le droit d'accès une personne elle peut demander à une entreprise quelle
donnée elle détient sur elle que ce soit les données brut mais aussi les données inférées
ou les données dérivées ensuite on a le droit de rectification si une donnée inférée est incorrect
par exemple bah je sais pas un utilisateur enfin un algorithme plutôt va classer un utilisateur
dans une mauvaise catégorie avec un mauvais genre peu importe et bien la personne qui est
concernée elle doit pouvoir demander la correction de cette donnée et ensuite et bien c'est le
droit d'opposition l'utilisateur il va évidemment pouvoir refuser que ces données soit utilisée à
certaines fins comme la publicité ciblée par exemple alors il y a un dernier une dernière chose dans
s'ajout c'est également la réidentification des données mais je vais pas mettre en dessus puisque
la réidentification des données on a fait un épisode de podcast complet récemment donc je
vous mettrai le lien directement dans les notes de cet épisode là mais très rapidement la
réidentification de données c'est avoir des données anonymes ou anonymisées et qu'on puisse
réidentifier relier ces données là à la personne d'origine voilà avec des moyens plus ou moins
complexes et les données inférées peuvent et bien on va dire faciliter la réidentification des
données et c'est pareil la réidentification de données c'est évidemment complètement encadré
théoriquement en tout cas par le rgpd donc c'est aussi intéressant à voir j'espère que vous aurez
appris des choses que vous avez appris ce qui était une donnée dérivé une donnée inférée une donnée
déduite même si la frontière est fine voilà il ya quand même plusieurs plusieurs définitions
assez assez précises moi je vous donne rendez-vous la semaine prochaine pour un prochain épisode
du podcast rappelez-vous dites non aux cartes de fidélité et sinon pensez à laisser cinq
étoiles notamment pour ce conseil et les futures données que les gens ne recolteront pas sur vous
mettez cinq étoiles sur les plateformes de podcast apple 10 heures spotify etc et puis sinon je
vous retrouve sur code dirigarage.com alors petit annonce c'est la quand vous écoutez ce podcast
c'est la dernière semaine pendant laquelle le l'abonnement premium il est à 19 99 ensuite il
va monter alors qu'est ce que ça veut dire ça veut dire que si vous prenez votre abonnement pendant
cette semaine et tant que vous gardez cet abonnement et bien il restera pour vous à 19 ou
à 99 il n'y aura évidemment aucune montée de prix pour les utilisateurs actuels de la communauté
enfin les utilisateurs premium mais voilà ça va augmenter parce que il y a de très très belles
choses qui arrivent en 2025 il y a pas mal de changements et donc voilà on est un petit peu
obligé de faire ça mais c'est aussi un moyen en vous le disant de remercier toutes les personnes
qui nous suivent depuis des années et qui continuent de nous soutenir et bien ça vous
permet de prendre votre abonnement dès maintenant et ça marchera évidemment pour les abonnements
annuels etc tant que vous prenez cette semaine vous avez ce tarif là garantie et si vous écoutez
ce podcast et que tout ça c'est déjà terminé parce que la semaine est passée bien je suis
désolé pour vous et en même temps ça veut dire que vous soutenez encore plus les votations de
code garage et ça je vous en merci mille fois donc je vous donne rendez-vous la semaine prochaine
pour un prochain épisode du podcast salut !
Episode suivant:
Les infos glanées
Code-Garage
Découvrons ensemble des sujets passionnants autour du métier de dev et de la programmation en général !
Tags