Code-Garage #71 - L'origine et l'évolution des captchas

Durée: 9m43s

Date de sortie: 08/08/2023

Salut et bienvenue dans ce nouvel épisode du podcast de Code Garage, je m'appelle Nicolas
Brondin-Bernard et aujourd'hui on va parler de l'origine et de l'histoire des Captcha,
mais avant, un petit mot du sponsor du jour.
Un réseau mondial de connaissance et l'engagement de vous accompagner à toutes les étapes
de vos projets.
De la recherche à la conception en passant par la maintenance, Farnel, votre fournisseur
de produits électroniques et industriels.
Pour en savoir plus, rendez-vous sur fr.farnel.com.
Alors qu'est-ce qu'un Captcha ? Un Captcha c'est un système automatisé pour différencier
les humains des robots sur internet, principalement pour éviter de retrouver les contenus de son
site spammé de liens en tout genre ou au contraire pour éviter qu'il soit récupéré et
utilisé, voilà, extrait de votre site.
Alors le mot Captcha c'est une déformation du mot Capture en anglais et il est parfois
considéré comme un acronyme pour « Completely automated public Turing test to tell computers
and humans apart ». En réalité, l'acronyme est arrivé après, bien après, la création
de la marque Captcha, qui a été déposée à l'époque par l'université Carnegie Mellon
en Pennsylvania.
Alors pour faire court, un Captcha c'est un widget qui doit pouvoir être résolu par
un humain, mais pas par une machine.
Alors dit comme ça, le concept il est connu de quasiment tout le monde et on comprend
très bien comment ça marche, mais quand est-ce qu'il a été inventé ?
Eh bien le concept de détection des humains, il est théorisé dès 1996 et il est implémenté
pour la première fois en 1997 par Alta Vista.
Alta Vista c'est un moteur de recherche et à l'époque ils veulent éviter les demandes
d'indexation de certains sites web, de certaines pages de sites web, sur leur moteur de recherche
par des robots.
Alors le Captcha d'Alta Vista, il est vraiment très très très simpliste, c'est quelques
lettres et quelques chiffres qui sont mis sur un fond de couleur et disposés un petit
peu en désordre.
A l'époque c'est très compliqué pour des systèmes automatisés de résoudre ça,
mais pour des humains c'est très très facile, c'est comme lire lettre par lettre, des lettres
qui sont un petit peu déformées, retournées, etc.
Alors évidemment comme toute technologie censée protéger un système, cette technologie
va devoir rentrer en compétition féroce avec tous les systèmes développés pour la
contourner ou passer au travers.
C'est ce qu'on appelle en général en sécurité le jeu du chat et de la souris.
Evidemment plus la technologie devient puissante, plus il est difficile de trouver des parades.
Pendant plus de 10 ans les Captcha ils vont évoluer en obligeant les utilisateurs à
résoudre des petites opérations mathématiques, retranscrire un mot dans un fichier audio,
reconnaître des caractères dans des images brouillées, etc.
L'un des plus gros contributeurs à ces évolutions, ça sera la société Yahoo qui
fera tout pour éviter la pollution de ces salons de discussion, par des robots qui
posent des messages promotionnels.
Alors évidemment à l'époque toutes les entreprises développent leur propre système
jusqu'à ce qu'il y ait quand même une révolution.
En 2009 avec leur système intitulé « Recapture », 7 chercheurs de l'université Carnegie
Mellon vont révolutionner le monde de la vérification des humains, dans le monde
numérique.
Le concept c'est utiliser des archives de livres et d'articles notamment et de les
intégrer à un système de Captcha classique, mais dans le but évidemment d'avoir un
Captcha fonctionnel, mais le second but c'est de numériser ses écrits papiers.
Ça c'est ce qu'on appelle le crowdsourcing et plus particulièrement le crowdsourcing
implicit.
Évidemment si ces termes ne vous parlent pas trop je vous mettrai dans les notes de
l'épisode un lien vers un article qui parle du crowdsourcing implicit.
À chaque fois qu'il va être affiché, le widget Recapture va proposer deux mots,
un qui est déjà numérisé, dont on sait à quoi il correspond, et l'autre qui
n'a jamais été numérisé auparavant.
Le premier mot il va servir à départager les humains des machines puisqu'on sait
la réponse qui est attendue et l'autre il va servir à avancer la numérisation de
ses archives.
Parmi toutes les réponses pour le deuxième mot, il y aura un arbitrage automatique sur
toutes les réponses qui ont été fournies par les utilisateurs.
En réalité ça paraît simple mais ça paraît quand même très astucieux comme concept,
mais ça va au-delà de ça parce que c'est la première fois qu'un service de Captcha
va rapporter de l'argent à une entreprise au lieu simplement de lui en faire perdre
avec les coûts liés au service.
C'est ce qui va pousser l'entreprise à proposer justement ce service gratuitement
à toutes les personnes et les entreprises qui souhaitent intégrer ce plugin sur leur
site et ce qui va permettre de réellement démocratiser l'arrivée des Captchas sur
le web.
En quelques mois, Recapcha y vont être en mesure de numériser 20 ans d'archives
du New York Times ce qui aurait pris évidemment un temps colossal à des humains employés.
En septembre 2009, Google y rachète la société Recapcha pour accélérer la numérisation
de son service Google Books.
Le problème c'est que la technologie va vraiment trop vite.
À partir de 2012, les algorithmes qu'on appelle OCR, Optical Character, Greek Ignition,
deviennent suffisamment efficaces pour que les Captchas à base de textes classiques
deviennent impuissants face aux robots et aux scripts automatisés qui vont réussir
à les résoudre très facilement.
Mais Google y vont trouver une parade.
C'est utiliser des images issus de leur service Google Street View qui cartographie
l'intérieur des rues et donc ils vont fournir un ensemble d'images à l'utilisateur avec
une question.
La question c'est en général regarder toutes ces images et sélectionner uniquement les
passages piétons ou sélectionner uniquement les images qui contiennent des vélos ou des
choses comme ça.
Les réponses des utilisateurs vont alors permettre à Google d'entraîner leurs propres
algorithmes de reconnaissance d'images et d'objets sur des ensembles de données qui
d'une leur appartient et d'eux est très fiable.
Cette méthode là est beaucoup plus fiable pour filtrer les robots mais elle est également
beaucoup plus chronophage pour les humains parce qu'il faut regarder un certain nombre
d'images, placer les yeux parfois pour arriver à reconnaître le petit bout d'objets qu'on
pense qui contient un vélo ou quoi que ce soit.
Et donc Google va adopter une méthode beaucoup plus rapide mais également controversée.
Cette méthode controversée c'est des captchas en un seul clic.
Ce qu'il faut savoir c'est qu'intégrer un service de captchas sur un site c'est
aussi intégrer un script tiers.
Ça signifie que ce script il aura accès à des informations préalablement stockées
dans les cookies pour le domaine du script tiers.
C'est par exemple un identifiant de sessions ou peu importe.
C'est ce qui va permettre de traquer un utilisateur.
Et c'est comme ça que Google a pu développer un service de captcha quasiment invisible.
La seule chose à faire donc des fois le captcha n'apparaît même pas mais sinon ce qui
a à faire c'est simplement de cliquer sur un petit bouton qui dit je ne suis pas un
robot.
Comment est-ce que fonctionne ce captcha ?
Eh ben il fonctionne en trois temps.
Si Google possède assez d'informations sur l'utilisateur eh bien le captcha il
sera carrément invisible et automatiquement validé puisque avec toutes les informations
de sessions, vos visites sur les autres sites, vos visites sur Google etc.
Eh bien Google aura analysé votre comportement, le comportement de votre souris, de votre
clavier, de plein de choses et aura déjà déterminé que vous êtes un humain et que
vous n'êtes pas un script automatisé.
Donc même pas besoin de montrer le captcha il est validé automatiquement.
Sinon il suffira simplement de coaching de coaching CAS ce qui permettra au service
de détecter le côté humain des mouvements de la souris et donc de valider si le service
n'était pas complètement sûr ou si il leur manquait des informations pour valider que
vous êtes bien manu.
Et évidemment s'il y a encore un doute eh ben Google affichera un test de reconnaissance
d'image dont j'ai parlé précédemment et qui fonctionne depuis 2012.
Si cette solution est parait évidemment moins contraignante pour les utilisateurs,
les visiteurs, en réalité elle pose un vrai problème en termes d'utilisation des données
personnelles et elle rentre même en conflit avec la législation européenne et française.
Si jamais ça vous intéresse de savoir pourquoi exactement ce service y rentre en conflit,
eh ben je vous mettrai plus de détails dans les notes de l'épisode.
Alors est-ce qu'il existe des alternatives qui pourraient faire un petit peu ce genre
de service mais sans exploiter les données utilisateurs ?
Eh ben si vous cherchez à intégrer un système de prévention des robots sous la forme d'un
CAPTCHA mais qui respecte ces données utilisateurs et évidemment les RGPD, vous pouvez tester
le service qui s'appelle H-CAPTCHA qui remplit tous ces critères qui fonctionnent franchement
comme deux gouttes d'eau comme RICAPTCHA mais qui est compatible RGPD et qui ne nécessite
aucune déclaration supplémentaire, c'est vraiment hyper pratique.
J'espère que cet épisode vous aura appris des choses que vous en saurez un petit peu plus sur
l'évolution, l'origine des CAPTCHA. Moi je vous donne rendez-vous la semaine prochaine pour un
prochain épisode du podcast ou directement sur code-garage.fr pour retrouver tous nos articles,
tous nos podcasts et évidemment tous nos cours et toutes nos formations pour continuer à progresser
et à avancer dans votre carrière. A la semaine prochaine, salut !

Les infos glanées

Je suis une fonctionnalité encore en dévelopement

Signaler une erreur

Code-Garage

Découvrons ensemble des sujets passionnants autour du métier de dev et de la programmation en général !
Tags
Card title

Lien du podcast

[{'term': 'Technology', 'label': None, 'scheme': 'http://www.itunes.com/'}]

Go somewhere