La bibliothèque d'Alexandrie et les données publiques

Durée: 8m39s

Date de sortie: 29/01/2026

Salut et bienvenue dans ce nouvel épisode du podcast de Côte Garage, je m'appelle
Nicolas Brondin Bernard et aujourd'hui je vais commencer par vous raconter une petite
anecdote. J'ai appris récemment qu'à l'époque de la bibliothèque d'Alexandrie,
chaque bateau qui accostait au port voyait tous ces livres confisqués, copiés pour
être stockés dans ce qui a priori semblait être la plus grande bibliothèque du monde
antique. Et ensuite, les originaux de ces livres, ils étaient tamponnés et ils étaient restitués
à leurs propriétaires. Grosso modo, personne n'était lésé mais la civilisation tout entière
pouvait jouir de toute cette connaissance supplémentaire. Alors du coup, une question m'est venue,
je sais qu'il est évidemment interdit de réutiliser ou de revendre des informations privées
détenues par une entreprise, ça paraît logique, mais je me suis demandé ce qu'il en était de
récupérer et de réutiliser des données publiées par d'autres entreprises. Par exemple, les avis
de l'application Goudrid ou les publications LinkedIn ou peu importe, est-ce que c'est légal,
est-ce que c'est encadré et si oui comment ? Eh ben cette question, elle est loin d'être anodine
et elle se situe surtout aujourd'hui à la frontière entre du droit, de la technique et de l'éthique.
Et d'ailleurs ça a été sujet à pas mal de débats avec l'arrivée des LLM qui ont été
entraînés sur une énorme quantité de données publiques mais détenues par des entreprises privées.
Et c'est là où est l'annuance, c'est que même si des données sont publiques, elles ne sont pas
pour autant libres de droit. Alors une donnée publique, c'est une donnée accessible sans
authentification, ok, qui est visible par tous. Un avis, un commentaire, un poste, un nombre de
likes, une date de publication, peu importe. Mais du coup, comme je l'ai dit avant, le fait qu'une
information soit visible, ça ne signifie pas automatiquement que vous êtes autorisé à la
collecter, la stocker, la transformer ou la revendre. Alors en pratique, on va distinguer plusieurs
couches. Il y a d'abord l'accès à la donnée, ensuite il y a le droit d'auteur sur le contenu,
puis il y a la protection des données personnelles et il y a évidemment, et on va voir que c'est
souvent ce qui bloque, il y a les conditions contractuelles de la plateforme. En fait avec
les deux derniers points, c'est là où 90% des limites vont apparaître. Alors d'abord,
le cas par exemple des plateformes, comme j'ai dit, Goodread, LinkedIn, peu importe. On va prendre
des exemples concrets. Les avis publiés sur Goodread ou les publications qui sont visibles sur
LinkedIn sont publiquement accessibles, parfois même sans compte. Donc techniquement, on peut aller
les scraper et les réutiliser. Sauf qu'évidemment juridiquement, c'est plus subtil. D'abord,
il y a le droit d'auteur. Un avis, un poste ou un commentaire, il est généralement considéré
comme une œuvre de l'esprit, même courte. Et donc à partir du moment où il représente un
temps soit peu une forme minimale d'originalité, ça signifie que l'auteur reste titulaire des
droits sur son texte. Que la plateforme dispose d'une licence d'exploitation, mais ça s'est
déclaré dans les conditions générales d'utilisation. Mais vous, en tant que personne tiers, vous
n'obtenez aucun droit automatique. C'est-à-dire que copier massivement ces contenus pour les
republier tels quels, ou même les modifier et les republier, dans un contexte notamment commercial,
ça peut réellement poser des problèmes, notamment des problèmes de contrefaçon. Ensuite, on a les
données personnelles avec la RGPD. Dès qu'un contenu est rattaché à une personne qui est identifiable,
ça peut être le nom, le pseudo-stable, des photos, un profil, ça peut même être,
on a fait un épisode que je vous mettrai dans les notes de celui-ci, qui parle des données agrégées
et qui, avec suffisamment de données agrégées, vont pouvoir relier une personne physique. Et bien,
ça entre dans le champ de la RGPD. Donc même si l'information est publique, vous devez avoir
une base légale pour la collecté, respectez le principe de finalité, limitez la conservation et
permettrez l'exercice des droits, des droits de suppression par exemple. Autrement dit,
public, ça ne veut pas dire hors RGPD. Ensuite, on a le vrai verrou, c'est les conditions d'utilisation.
Dans la majorité des cas, le principal obstacle, il n'est même pas technique, il n'est pas législatif,
mais il est contractuel. Les plateformes, elles précisent, presque toujours dans leur EU,
que le scrapping automatique, automatisé plutôt est interdit, la réutilisation des données à
défense commerciale souvent est prohibée, et parfois, ce n'est même pas qu'à défense commerciale,
et donc l'accès est accordé uniquement pour un usage personnel. Et donc en accédant au service,
ça ne veut pas dire créer un compte, ça veut simplement dire accéder aux sites web,
et bien on considère que vous acceptez ces conditions. Donc ça veut dire que le risque
principal, il n'est pas forcément pénal, mais ça peut être des problèmes civils, des mises en
demeure, des poursuites, ça peut être technique, bloquage IP, ajout de CAPTCHA, des actions
anti-bots, peu importe. Évidemment, les sociétés privées peuvent mettre en oeuvre n'importe quelle
solution technique pour vous bloquer, et ça peut être aussi commercial. Si vous aviez des accès,
même des accès commerciaux, des partenariats, peu importe, ces accès-là peuvent être résilier
et un contrat peut être rendu caduc. Alors ce qui est généralement toléré, ou en tout cas moins
risqué, alors ça ne veut pas dire que c'est une garantie absolue, mais il y a certaines pratiques
qui sont vraiment mieux acceptées que d'autres. Donc extraire des données agrégées, ça peut être
des statistiques, des tendances, des choses comme ça, ça peut être à peu près accepté. Ou si vous
ne republiez jamais un contenu textuel bruit, ça peut être accepté également si vous anonymisez
les données. Alors évidemment, si vous utilisez des API officiels, bon en général ça passe, mais
attention, il peut y avoir des conditions générales aussi sur l'utilisation d'API officiels, et par
exemple ça peut être de ne pas recréer une plateforme directement concurrente de la plateforme
de laquelle vous utilisez l'API officiel. Voilà, et après ça peut être documenté, clairement
la provenance et la finalité des données. On va dire que tout ça vous donne un petit peu plus
de largesse pour faire ce que vous voulez. Donc si on prend un exemple très simple, analyser des
tendances par exemple de lecture ou de popularité issus des avis Goudrid sans republier les avis
eux-mêmes, ça va évidemment poser beaucoup moins de problèmes. Maintenant la plateforme est quand
même dans son bon droit de vous couper les accès. Alors il y a la question éthique. Au-delà du droit
évidemment, si on revient un petit peu à notre Alexandrie de départ, la différence fondamentale
avec notre époque, c'est que, bon à l'époque les copistes, ils concurrent c'est pas les auteurs ou
les institutions qui produisaient la connaissance. Aujourd'hui, scraper une plateforme pour revendre
exactement ce qu'elle produit, ça revient souvent à capturer une partie de la valeur
économique sans participer à son modèle. Alors c'est rarement illégal au sens strict, mais ça peut
quand même être conflictuel. Après ça évidemment, chacun avec ses valeurs et sa philosophie va mettre
le curseur où il ou elle veut. Si on pense que l'application ou peu importe la plateforme qu'on
est en train de créer va apporter quelque chose à l'humanité au sens très large, en tout cas
aux gens, à notre société, on peut s'accorder le droit de le faire, mais voilà, ça reste une
question quand même à se poser quand on va aller récupérer des données pour les utiliser. J'espère
que cet épisode vous aura été utile, moi en faisant les recherches notamment avec les sources
que je vous mettrai dans les notes de l'épisode. Pas ça m'a quand même appris pas mal de choses
aussi. Je vous donne évidemment rendez-vous la semaine prochaine pour un prochain épisode du podcast.
Pensez à laisser cinq étoiles sur votre plateforme de podcast favoris et je vous rappelle qu'on
a sur Code Garage un cours dédié aux juridiques adaptés spécifiquement aux développeurs et
vous allez retrouver plein de choses sur l'RGPD, mais aussi sur les licences logicielles et des choses
sur les données comme on vient de voir ici. Je vous laisse aller voir le cours, il est dans les notes
de l'épisode, il est disponible à 19,99€ comme tous nos autres cours. Franchement, vous sortirez
avec beaucoup plus de valeur pour conseiller les gens avec qui vous travaillez ou vous même si vous
avez des sas par exemple ou vos clients si vous êtes en fridence. Je vous donne rendez-vous la semaine
prochaine, prenez soin de vous, salut !

Les infos glanées

Je suis une fonctionnalité encore en dévelopement

Signaler une erreur

Code-Garage

Découvrons ensemble des sujets passionnants autour du métier de dev et de la programmation en général !
Tags
Card title

Lien du podcast

[{'term': 'Technology', 'label': None, 'scheme': 'http://www.itunes.com/'}]

Go somewhere