L’IA vient de révolutionner l’archéologie

Durée: 36m0s

Date de sortie: 12/12/2023

1 million de dollars pour lire un papyrus carbonisé, sans le dérouler ? C’est le challenge auquel participe Youssef, un étudiant égyptien de 27 ans. Ou comment le machine learning est en passe de révolutionner l’archéologie. Et la lecture de papyrus vieux de 2000 ans !


Pensez à mettre 5 étoiles pour soutenir l’émission !


Écriture : Matthieu Lambda



Hébergé par Acast. Visitez acast.com/privacy pour plus d'informations.

Pourquoi Banque Populaire est la première banque des entreprises ?
Je me posais des questions sur le partage de la valeur pour mes salariés.
Elodie, ma conseillère Banque Populaire, m'a proposé une solution d'épargne salariale sur mesure,
rapide à mettre en place et que je peux piloter en ligne.
C'était simple et surtout ça a fait des heureux.
Accompagner nos clients sur tous les territoires avec des solutions adaptées à leurs besoins,
c'est ça, être la première banque des entreprises, Banque Populaire, la réussite est en voulue.
Étude Quantar PMEP et Mid-2023, 14 Banques Populaires, 1ère Banque des PM.
Aujourd'hui, ça parle encore un peu d'IA, mais...
Mais pas de la même IA, on ne va pas parler de LLM.
Exactement, détendez-vous, ça ne parle pas de LLM.
Dites-vous que ça n'a rien à voir.
C'est de l'IA de 2012, donc j'ai le droit d'en parler.
2012 ? Bah moi je suis néanime.
Oui, c'est pas tout frais tout cuit, et pourtant vous allez voir, l'histoire est incroyable.
Si je vous dis que l'intelligence artificielle a permis la lecture d'un papyrus en ceveli sous un volcan,
vous ne croyez sans doute pas, et pourtant c'est la prouesse qu'on réussit deux étudiants
participants à un challenge à un million de dollars.
Ce qui en train de se jouer dans les semaines à venir,
pourrait bien révolutionner l'archéologie pour toujours.
Et je pèse mes mots.
Mathieu, tu vas nous raconter l'histoire absolument incroyable de Visuvius Challenge.
Exactement, et pour vous raconter cette histoire,
il faut faire un saut dans le passé, mais vraiment dans le passé, en l'an 79,
avec l'éruption du Vesuv, donc ce volcan qui est à côté de Naples, en Italie,
et qui en ceveli, par 20 mètres de bouchot et de cendres, notamment Pompéi,
est une autre ville juste à côté, Herculanum.
Et à Herculanum se trouve une immense villa,
ayant appartenu au beau père de Jules César,
et à l'intérieur de cette villa, il y a une grande bibliothèque de papyrus.
Évidemment, ça en fait des rouleaux complètement carbonisés
par la chaleur des débris volcaniques,
mais ils sont en fait plutôt bien préservés.
Parce que pendant des siècles et des siècles,
tous les textes, les anciens textes, sont exposés à l'air libre,
pendant des siècles qui n'est pas forcément ceux de Pompéi et de Herculanum,
mais globalement, les papyrus, quand ils sont à l'air, ils se décomposent,
ils disparaissent, ils sont détruits.
Alors que pendant ce temps, dans cette villa des papyrus, comme on l'appelle,
donc cette maison ayant appartenu au beau père de Jules César,
la bibliothèque de cette villa attend, sous terre, intact,
par 20 mètres de cendres et de boue qui a dévalé,
par l'éruption du volcan. Qu'est-ce qu'il y a, Syphanie ? Dis-moi.
Non mais c'est que chaque fois que tu dis mon nom, ça me...
Pardon, tu as dit sous terre.
Ah ! Mais c'est parce que j'ai vu !
Et je suis dit mince !
C'est le 10 ans à tout.
Pareil !
Pardon, il fallait recouper ça.
Eh bien sous, Syphanie.
Désolé pour l'édition.
Mme, quand tu l'as dit, je t'ai dit...
Excuse-moi.
C'est moi.
Ce que je veux dire, c'est que paradoxalement,
cette éruption a préservé une bibliothèque de l'air libre,
et donc, du coup, cette bibliothèque est intacte sous la terre.
Ça, c'est en l'an 76.
79 ?
79, en l'an 79.
Peu s'il se faut dans le temps, enfin, même gros saut dans le temps,
en 1750, cette histoire continue.
En creusant un puits, rien à voir,
mais un agriculteur italien découvre une dalle de marbre.
Évidemment, qu'est-ce qui se passe ?
Ça entraîne des fouilles archéologiques,
et on y découvre des statues, des fresques.
Bref, on y découvre la villa du Bopère de Jules César,
et des centaines de papyrus, tous carbonisés,
et cendrés, on va voir des images juste après.
C'est une découverte absolument incroyable,
parce que si on parvient à restaurer ces papyrus,
on double notre connaissance qu'on a de l'Antiquité.
Donc ça fait...
Les archives qu'on a actuellement de l'Antiquité,
si on parvient à lire les papyrus qui ont été découverts en 1750
grâce à cet agriculteur,
ça fait foie de sur la connaissance de l'Antiquité.
Donc c'est absolument incroyable.
Problèmes, en fait, ils sont extrêmement fragiles.
Les peu qui essayent de les dérouler...
Donc ça, c'était un papyrus-là.
Ce que vous avez vu, c'était un papyrus qui a été découvert dans cette villa.
Vous allez voir plein d'images de papyrus comme ça,
vous allez voir, c'est impressionnant.
Oui, on dirait pas un papyrus.
Je sais à quoi vous pensez.
Tu te dis même pas que c'est du papier.
C'est carbonisé.
Sur d'autres photos, on comprend un peu mieux que c'est du papier.
Enfin, c'est un papyrus.
Mais voilà, ils sont extrêmement fragiles.
Les peu qui essayent de les dérouler,
ça finit en poussière.
Tout en lambeau, en poussière.
Enfin, on ne peut plus rien en faire.
Il y en a quelques-uns qui sont détruits à cause de ça.
Il y a quand même un moine qui en sauve quelques-uns
et qui arrive à lire des textes philosophiques
écrits en grec de l'époque.
Mais c'est vraiment très peu de papyrus.
Parce que là, ça s'est déroulé ?
Ça, oui. Ça s'est déroulé.
C'est des fragments de papyrus.
Ça ressemble à un peu une écorce.
Et sur certains fragments, on va pouvoir distinguer des lettres.
Souvent en grec, mais certains historiens disent
qu'il peut aussi y avoir du latin.
Et donc, ça fait qu'il y a plus de 600 papyrus
qui n'ont jamais été ouverts
et qui sont absolument illisibles.
Parce qu'on ne peut rien en faire.
C'est frustrant.
Imagine, tu es un chercheur,
tu as sous la main
la connaissance.
L'équivalent de toute la connaissance de l'Antiquité.
Tu peux révolutionner ton domaine.
Et on pourrait découvrir des trucs de fou.
Ils ont vu des aliens, tu vois, ou je ne sais pas.
Exactement.
Tout ça, et cacher
dans ce trésor que tu ne peux pas dérouler,
c'est horrible.
Et pour avoir lu quelques interviews de historiens,
ils sont de gros de gré dégueu.
Ils attendent que le fait qu'on puisse potentiellement
les lire, et ce qui est fou, c'est que là,
il y en a 600 qui ont été détérés,
mais en fait, les fouilles, elles se sont un peu arrêtées en chemin.
Parce que, qu'est-ce que tu veux faire de papyrus
complètement carbonisé ?
Ils n'ont pas...
Il y a des historiens qui disent qu'ils n'ont pas complètement fini les fouilles en 1750.
Et qu'il y en aurait d'autres,
si on fouille encore dans la zone,
il y en aurait encore potentiellement des milliers d'autres.
Ce qui en fait, cette villa des papyrus,
aujourd'hui, la seule bibliothèque
est entre guillemets intact de l'Antiquité Gré-Cormais.
Détruite intact.
Détruite intact.
C'est potentiellement les seules papyrus
qu'on peut récupérer de cette période.
Et comme tu le disais,
il y a des historiens qui attendent en savoir plus
sur la science, la littérature des époques, la philosophie.
Enfin, vraiment, ils sont comme des dingues
et en même temps, ils sont d'accord.
Donc, en fait,
le défi qui se crée à partir de là,
c'est de parvenir à lire ces papyrus,
mais sans les ouvrir.
Ou en tout cas, sans les ouvrir physiquement,
parce que sinon, on les détruit.
Nouveau saut dans le futur, dans le présent.
Nouveau saut en 2015.
Où en fait, il y a une sacrée avancée.
C'est le professeur Brenn Seal
de l'université du Kentucky et son équipe.
Ils parviennent à lire un rouleau carbonisé.
Alors pas de l'éruption du vésu et de Pompéi,
mais qui a été découvert dans un autre endroit
à côté de la région de la mer Bost, en Israël.
C'est un papyrus d'Aïnd Jedy,
pour les historiens inconnesseurs.
Et c'est la première fois que, grâce à des scans,
ils arrivent à lire un rouleau,
un papyrus, un rouleau de papyrus carbonisé.
Donc je ne sais pas si on va pouvoir voir l'image.
Et ils découvrent que c'est un texte, voilà, c'est ça.
C'est le premier, la première fois qu'on a pu lire
un papyrus carbonisé.
Ils ont fait comment ?
En fait, ils l'ouvrent, mais virtuellement.
C'est-à-dire que tu le scans, avec des technologies de la mer,
de rayon X, et bien enfin, ils le scannent
grâce à la tomographie par rayon X.
Il s'appelle ça, en anglais, le 3D city scan.
Et aussi par des techniques de vision par ordinateur, évidemment.
Et en fait, ils arrivent à dérouler virtuellement le papyrus.
Ce que vous avez vu, c'est un peu le papyrus déroulé.
Mais qui n'a pas été déroulé dans la vie.
Mais qui n'a pas été déroulé.
Il est déroulé que sur l'ordinateur, dans la vie.
Il est complètement intact.
Il avait une forme bizarre, enfin, en fond de M.
C'est parce qu'il y a des endroits qu'ils n'ont pas pu scanner, c'est ça ?
Ouais, ou peut-être parce qu'il était un peu détruit aussi.
Enfin, ils ne sont pas forcément, quand je dis intacte,
c'est intact de l'antilité.
C'est intact il y a 2000 ans.
En tout cas, moi je l'ai compris comme ça.
Mais en tout cas, c'est la première fois qu'il arrive
et il y a un texte du Lévitique montier.
Le Lévitique, c'est le troisième des 5 livres de la Tora.
Je ne savais guère, je vous ai rappris quelque chose.
Mais en tout cas, c'est la première fois
et ça faisait des années que des équipes bossaient sur
parvenir à un scan d'un papyrus carbonisé.
C'est la première fois que ça arrive
et ça a ouvert la voie, évidemment, à plein d'autres.
Donc ça, c'est un papyrus qui se fait scanner, par exemple.
Il y a des images absolument incroyables.
Donc là, vous vous dites, bon, c'est Game.
C'est quand même fou de dire que là,
on te dit...
Mais déjà, rien que ça.
Quand on arrive à lire dedans, c'est...
Alors ça prend...
Je suis...
Ça se fait pas instantanément, mais...
Déjà, c'est pas la fin de ton histoire,
mais rien que le scan, je trouve ça fou.
Juste là, c'est...
À mon avis.
Là, on croit que là, c'est bon, que ça se gagne.
Moi, je suis désolé, c'est bon, là.
Là, on peut lire les 600 papyrus qu'on n'a jamais eu.
Ben non, Mathieu.
Non, parce que ça, c'était écrit avec une encre de métal.
Si je suis bien compris.
Et donc, ça se voit bien au rayon X.
Problème, nos papyrus de la ville, à des papyrus.
Ils sont faits avec une encre de carbone.
Et il n'y a ça, ne provoque absolument aucun contraste
au rayon X, à la technologie qui est utilisée
pour scanner les papyrus.
Et ça ne marche pas.
C'est mort.
Et ils sont absolument dégoûtés.
En fait, ils étaient tristes,
hype, retristes.
C'est juste un frère histoire pour eux.
Écoute, ça va faire que ça et c'est pas fin.
Ce qui nous emmène,
en 2019, là, on commence à se rapprocher de notre ère.
Le professeur Sils, toujours lui,
dans son université du Kentucky,
a une nouvelle idée.
C'est utiliser la lumière infrarer rouge
pour lire certains fragments
détachés du papyrus.
Donc au lieu d'essayer de scanner les papyrus
de la ville à des papyrus,
ils ont récupéré des fragments.
On en a vu ce qui ressemblait un peu à des écorces
avec des lettres dessus
qu'on arrive directement à lire, pour le coup.
Et ils disent, ok, on peut scanner ces fragments.
Et en faisant de l'apprentissage automatique,
en faisant de machine learning,
on va peut-être pouvoir détecter
des ancres qui nous paraissent actuellement invisibles
sur les papyrus qu'on cherche à lire.
Et c'est ce qui fait, pour ça, ils l'utilisent...
Alors, c'est absolument incroyable, en vrai.
Ils l'utilisent un accélérateur de particules
mais en version miniature
pour obtenir des rayons de très haute résolution
et de très haute énergie.
Donc là, il est devant.
C'est pour ça que je n'ai pas trop...
Ça, ils appellent ça un accélérateur de particules.
Ça, honnêtement,
il y a des papyrus scientifiques qui en parlent
mais ils appellent ça un accélérateur à particules.
J'ai pas tout bien saisi
l'exactitude de ce qu'ils font en termes de physique
pour pouvoir...
Ça a l'air pointu.
Mais en fait, c'est toujours de la tomographie par rayon X,
sauf qu'en fait, c'est...
Ultra haute définition...
Ultra haute définition, avec 15 000 fois plus de précision.
Ces chiffres ne sont pas à prendre au pied de la lettre, évidemment.
Mais même si c'est du carbone, au final.
Attends, j'y viens...
Pour l'instant, ils n'ont pas réussi.
Mais en tout cas, ils se disent
si on augmente la résolution et qu'on compare
avec des petits fragments, peut-être qu'on arrivera
à faire une IA.
On a fait une IA qui permet de lire ces papyrus.
Et donc là, ça leur permet, par exemple,
d'avoir une résolution de 3 à 8 micromètres.
Donc c'est quand même très petit.
C'est un bon scan.
Et donc, du coup, ils scannent 2 rouleaux entiers
qui appartenaient à l'Institut de France, d'ailleurs,
qui étaient stockés en France, et plusieurs fragments.
Ça, c'est un scan 3D d'un papyrus.
C'est un scan 3D.
Oui, d'amplissant les yeux, on arrive à lire pas du tout.
Pas du tout !
Et on arrive, enfin, à la dernière étape,
qui va arriver sur notre histoire, qui est encore plus fabuleuse,
et qui passe cette année, en 2023,
Britsils et son équipe parviennent
à reconnaître de l'encre dans ces papyrus,
sauf qu'ils n'avaient jamais prouvé encore
que ces papyrus carbonisés,
ils avaient détecté de l'encre.
Ils parviennent...
C'est le plus gros prank de l'histoire,
et en fait, c'est que des pages blanches.
Ou alors juste qu'il n'y a plus aucune trace,
parce qu'on rappelle qu'ils sont carbonisés
et qu'on ne pourra jamais retrouver.
OK, grâce aux modèles qu'ils ont fait de machine learning,
et qu'ils ont pu comparer avec des lettres existantes,
je ne sais pas si c'est bien clair ma phrase,
mais ça va.
Ils ont la certitude qu'on peut dérouler
virtuellement ces papyrus,
et qu'il y a de l'encre.
Ce qui est très cool.
Mais, à l'heure actuelle des choses,
ils n'ont toujours absolument lu aucune lettre
et aucun mot sur un papyrus de la villa des papyrus.
En fait, moi, il y a un truc que je n'ai pas bien compris.
Tu peux réexpliquer en trois phrases,
pourquoi c'est possible maintenant,
grâce à leur modèle d'IA,
versus avant.
Qu'est-ce que le LIA, dans cette histoire,
a permis de débloquer exactement ?
Pour l'instant, à ce stade de l'histoire,
ce qui n'a pas grand-chose,
mais ce qui a vraiment permis ça,
c'est l'évoution de scan 3D,
la spécialité, notamment,
du labo de Brent Seals.
Ils ont perfectionné leur modèle de scan.
Ils ont réussi à avoir des scans trop bien.
Et il a une idée,
c'est de scanner
aussi, en plus des papyrus, des petits fragments,
et de se dire,
ok, on est capable de faire du machine learning
en 2023,
je vais créer un petit modèle
et essayer de trouver des traces de ces fragments
dans les deux papyrus que j'ai scanner
grâce à ma technologie de scanner
absolument incroyable de 3D city scan.
Il a fait un modèle d'IA préliminaire
qui sert justement à prouver
qu'en théorie,
il devrait y avoir du texte.
Et la résultat, c'est
en théorie, il y a de l'encre.
Il y a du texte, c'est de l'encre.
Actuellement, on en est à ce stade-là.
Et c'est là qu'entre un nouveau protagoniste,
pour l'instant, on y avait principalement le directeur du labo,
il s'appelle Nat Friedman.
Je ne sais pas si ça vous parle.
Non, ça vous parle pas.
C'est un développeur et un investisseur assez influent dans le monde de la tech.
Il a été notamment CEO de GitHub
juste après le rachat par Microsoft
de 2018 à 2021.
Et puis il a fondé plusieurs boîtes tech.
Voilà, il a travaillé pour Microsoft.
C'est quelqu'un sur Twitter qui est assez suivi
et qui parle...
D'IA, je sais que
il est venu un peu un fond d'investissement
à lui tout seul.
Et il voit ça.
Il est en contact du coup avec
Brent Seals.
Et il se dit, je vais organiser un challenge
pour faire avancer cette histoire
beaucoup plus vite que si vous continuez
votre petit labo, là, à essayer de lire vos papyrus.
Et donc il crée
The Vesuvius Challenge
pour accélérer le recherche
et à faire appel à toute la communauté
de l'IA
friand de challenge
et de trouver des résultats incroyables.
À la clé, 1 million de dollars de récompenses
répartis en plusieurs catégories
notamment apportés par Nath Friedman
mais il y a aussi d'autres investisseurs
qui...
On se dit que les labes puissent être trop bien.
Et le site, genre, tu as vraiment envie de participer
avec la team.
Et tout est super bien expliqué.
Honnêtement, si vous voulez creuser,
vous pouvez aller lire tout ça.
Mais qu'est-ce qu'il faut faire, du coup, exactement ?
Qu'est-ce qu'il faut faire ? Il faut en y tous les données que Brent Seals
avait de son côté.
Et il y a deux objectifs. Premier challenge,
déchiffrer 10 lettres
sur un des deux papyrus
dans une zone de 4 cm2
Et ça, je crois qu'il y a 50 000 dollars
à la fiers, ou 60 000, ou quelque chose comme ça.
Deuxième, et ça c'est le gros challenge
et vous allez voir que...
Je vous le dis pas tout de suite.
C'est pour gagner 700 000 dollars
il faut déchiffrer 4 paragraphs
de 144 lettres, donc ça fait 560 lettres
en tous, dans les...
pareil, dans les deux papyrus, ce qu'il y a
ce qu'il y a, on rappelle, à ce moment-là
quand on lance le challenge, apparemment aucune lettre
n'a pu être lu dans un
de ces deux papyrus qui ont scanné
par l'équipe de Brent Seals.
Alors, mais c'est quoi ? Ce qui est moins me paraît bizarre
c'est qu'on dirait que c'est pas beaucoup.
Genre quelques paragraphs, tu nous apparaît
de sortes de centaines de parches, voilà,
un truc comme ça, là c'est juste quelques paragraphs
pour gagner 700 000 dollars.
Mais c'est en fait, si tu y arrives, déjà à détecter
une lettre, en fait derrière, tu te fais un modèle
d'hier et tu les as tous.
En fait, lui, il voulait un POC
qui pouvait répliquer sur toute la date.
Donc c'est la preuve, en fait, que ça marche.
Oui.
Pour l'instant, on sait pas, c'est à ce que vous allez y arriver.
Réussir quelques paragraphs, en gros,
ça veut dire qu'après c'est bon.
Est-ce que tu veux que je te montre que c'est compliqué ?
Oui. Regardez cette image.
Salut, si vous appréciez Endorscorp, vous pouvez nous aider
de ouf en mettant 5 étoiles sur Apple Podcast,
en mettant une idée d'invité que vous aimeriez qu'on reçoive.
Ça permet de faire remonter Endorscorp,
voilà, telle une fusée.
Est-ce que vous voyez quelque chose ?
Un scan ultra haut de définition.
Un scan dans un endroit du papier russe.
Est-ce que vous voyez quelque chose ?
Il y a une forme qui ressemble à un S vite fait,
je sais pas si vous voyez dans un petit S,
genre au milieu, en haut, à gauche.
OK.
Et bien, là, de cette image,
si tu voulais voir une lettre d'un papier russe,
il fallait voir ça.
D'accord, oui.
Vous pouvez vous dire qu'on est quand même sur des niveaux.
Ça, c'est du carbone, vraiment,
c'est du truc carbonisé qui a été scanné en 3 décors.
Il fallait dézoomer.
Vous, vous êtes en train de chercher un paragraphe, non ?
Ah, mais c'est juste, je n'avais plus le voir.
Globalement, ça, c'est un des premiers végia
qui a travaillé dessus.
Et c'est d'ailleurs la première preuve
directe de la présence d'encre
dans un parchemin grâce à ce challenge.
OK.
C'est quelqu'un qui l'a apporté.
C'est quelqu'un comme vous et moi qui a participé au challenge,
qui s'appelle Kazei Anmer,
et qui a gagné 10 000 dollars pour cette découverte.
Et surtout, en fait, tout le travail,
tout le travail, il a accompli parce que tout ça,
le but, c'est que tout le monde,
mais tout open source, et chacun peut réutiliser
le travail des uns et des autres.
Si vous voulez en savoir plus à la fin,
c'est super malin, mais tu vois que tout est incroyable
dans cette histoire. Si vous voulez en savoir plus,
honnêtement, il a fait un billet de blog.
Alors, c'est technique Asfuckin,
mais si vous êtes affous...
Il mérite ces 10 000 balles.
Il mérite tellement ces 10 000 balles,
le travail qu'il a fait, ce mec,
est absolument incroyable.
Mais, ça n'était pas
exactement le challenge demandé.
C'était d'avoir 10 lettres sur 4.6 mètres carrés.
Il y a quelques semaines,
le 12 octobre dernier,
nous avons eu un grand gagnant annoncé
pour ce premier challenge,
c'est Nath Friedman qui l'a annoncé dans un tweet.
Voilà, exactement, c'est sur tweet.
Et le gagnant, c'est Luc Faritor,
étudiant de 21 ans en stage chez
SpaceX, qui empoche
40 000 dollars pour avoir
déchiffré ce premier mot
que vous voyez à l'écran.
C'est le mot pourpre.
Voilà.
Il a gagné 40 000 dollars
pour avoir le tout.
Sur un papier russe
absolument carbonisé.
Du coup, par contre,
l'image qu'il y avait, on les voyait
à peu près les lettres.
Alors, ça, c'est parce que, du coup,
c'est après vérification
par des papyrusologues,
je crois qu'on dit,
des gens qui s'y connaissent.
Oui, c'est une image qui a fait le coup.
Tu soumets ta proposition.
C'est traité.
Potentiellement, tu vas voir des images
où c'est pas traité.
On a vu le mot pourpre.
Les historiens étaient là en mode,
c'est très étrange qu'on ait le mot pourpre,
parce que c'est pas un mot qui est fréquent
à l'époque
de trouver ce mot.
Ils se sont emballés très vite.
C'est le mot pourpre.
J'ai rien dit trop, les mecs
content d'avoir le mot pourpre.
C'est un domaine que je ne connais pas,
mais...
Il a eu des infomarantes, c'est que
les stagiaires de SpaceX,
on pouvait s'y attendre, mais visiblement,
ils ont des gros serres pourpre.
On voyait sur une des bases, d'ailleurs...
C'est drôle que ce soit un stagiaire, c'est ça que je veux dire.
21 non le mec, hein.
Alors que vraiment, le challenge est accessible
à tout le monde.
Si tu te dirais, il a pas le temps.
Mais en fait, si.
En plus de tout le reste.
Peu de temps après ce
premier vainqueur, il y a eu un second quantitat
qui a découvert, avec une note technique
et un peu dans la même zone du papyrus,
d'ailleurs, deux autres mots.
Donc c'est les mots réalisés et simulaires.
On s'en fout un peu, mais voilà.
Ça, c'est par exemple, c'est pas processé.
Et lui, c'est la
l'image, enfin c'est pas processé.
Il n'y a pas eu des rajouts.
Évidemment que c'est processé
pour arriver à ce stade.
Il y a énormément de computers vigènes, etc.
Et d'algorithmes qui passent dessus
pour traiter le contraste, etc.
Ça, c'est l'image la plus claire
qu'on ait d'un papyrus.
Et donc pour ça,
il a gagné un petit peu de quelque chose.
Il a gagné 10 000 dollars également,
parce que c'est le deuxième gagnant
de ce prix, le First Letters
Papyrus.
Parce qu'il a fait une belle image.
Il a deux mots supplémentaires, c'est pas les mêmes.
Et il a une image beaucoup plus claire
que celle de Lucas.
J'ai une autre question, mais je ne sais pas si tu peux
répondre. En fait, à chaque fois qu'on voit
le rouleau, donc j'imagine qu'il est enroulé,
on voit que la feuille
extérieure, ils arrivent à lire
le texte de la...
Tu vois ce que je veux dire ? Non.
Ça, c'est pas eux qui le font, mais en fait,
ce qui est incroyable, c'est qu'ils arrivent
à vraiment aplatir.
Ils arrivent à dérouler virtuellement le papyrus.
Je comprends pas.
Exactement comment ça marche.
En fait, c'est de la 3D.
Mais c'est incroyable.
Quand tu penses, ça veut dire que
j'ai mes tentes à ton rayon qui vient faire sa mesure.
Il voit plusieurs couches.
Tu traverses peut-être 1000 couches de papier.
Si j'ai bien compris, c'est via des procédés
d'image multispectrales, ils jouent
sur les longueurs d'ondes. Ça, c'est de la physique
plus rigueur pour le coup.
Mais il y a un papier de recherche qui en parle très bien.
Oui, oui.
Voilà, c'est lui exactement.
En gros, Big Brain arrive à faire ça.
On me rappelle
que c'était il y a 2000 ans qu'ils ont été
découverts en 1750 et qu'à leur actuel,
aucun de ces papyrus n'a été lu
alors qu'il y en a 600. Donc c'est vraiment un problème
méga complexe.
Mais globalement,
c'est via des techniques comme ça.
Ce deuxième gagnant,
qui a réussi à avoir l'image la plus claire,
il s'appelle Youssef Nader. Il a 27 ans.
Il est égyptien. Il est en thèse
en machine learning à l'université de Berlin
et il m'a accordé
quelques minutes de 100 ans.
J'ai pu lui poser quelques questions.
C'est cool.
Il connaît son underscore ?
Non, il est égyptien.
Calme-toi.
T'as cru que on était éco-déjecteur
d'un type d'Iffani notamment ?
Oh, tu feras une Twitter.
Oui, oui, oui, oui, oui, oui, oui.
A WBS, hein.
Ça, oui, pour le coup.
Oui, il t'a dit à WBS.
Il a des gens à travail pour à double.
Bref, il essaye de me ridiculiser.
Je lui ai demandé,
du coup, qu'est-ce qu'il a motivé tout simplement
à participer à ce challenge ?
On l'écoute.
Je me suis dit que c'était un challenge
très difficile.
Je pensais que c'était
intéressant.
Il y a des facteurs intéressants,
d'ailleurs, dans le challenge,
il y a un prix
ridicule,
le grand prix, c'est 700 000 dollars.
Il y a
un aspect historique
qui est réservé
d'un texte ancien
de l'Empire romain.
Et, oui,
comme l'Egypte,
comme le monde,
le virus a toujours été cliqué.
Ce qui est marrant,
c'est qu'il est tombé dessus
sur Kaggle,
un site qui permet de faire
des challenges de machine learning
et de data science.
C'est un peu le rootme mais de la data science.
C'est là où tu peux avoir plein de data set aussi.
Tu veux pas avoir plein de data set,
mais il y a aussi un petit côté fun, challenge et tout.
Il était
en master,
je sais plus,
et c'était en mars,
il tombe dessus, exactement.
Il avait publié sur cette plateforme,
parce que c'est la plateforme qui fait référence
pour ce genre de choses.
Et au début, il se dit qu'il n'a pas trop de temps,
il les laisse dans un coin et puis il y revient
à l'été, et il commence à poncer le truc,
à voir ce que les autres ont fait,
notamment le monsieur qui a trouvé la lettre,
la lettre bizarre qui ressemble à un N.
Et donc en fait, il y va à fond,
et il commence
à
mettre en place un apprentissage
pour pouvoir lire
des papyrus.
On s'en fout, mais
je trouve ça marrant qu'il soit éblier.
Je sais pas comment dire, mais...
Et du coup, ça a un peu... Il a vu le mot papyrus,
comme il dit, il fait, bah du coup, forcément,
je suis égyptien, alors que
ça va rien avoir, ça a l'air rigolo,
c'est un challenge.
Et puis aussi parce que le cash prize,
enfin, c'est du jabis. Il y a quand même
un million de dollars à le clé, c'est énorme.
Et du coup, il s'y est mis, et du coup, je lui ai demandé
un peu...
J'ai perdu mes notes, mais je lui ai demandé
comment il s'y était pris, et de nous expliquer
un peu ce qu'il a... La Strat pour gagner 700 000 balles.
La Strat pour gagner 700 000 balles, on l'écoute.
Je me suis dit, je vais vous expliquer













Je ne suis pas tout le temps sûr
que ce sont les notes, mais je pensais
que je ne pouvais pas écrire le mot.
Il pense que c'est leur note, pour faire
plus confiance. Et je lui ai donné
ce mot, et je lui ai dit, ok, ce sont les notes,
j'ai essayé de trouver des notes similaires,
et ça a été très bien,
et le mot est capable de voir
beaucoup plus de notes, et
comme, le segment sort
de lit.
Et puis, je
décidais de faire ça plusieurs fois,
donc j'ai pris ces notes que le mot a trouvé,
et j'ai
trouvée un autre map de la label
sur le dessus, et je lui ai dit, ok, tout ce que
ce sont les notes, j'ai essayé de trouver
des notes similaires que ce sont les autres segments.
Et ça a pris beaucoup de débarque,
et un peu de essaye de savoir
quand le mot est overfait,
donc c'est... Un point qui commence
à mémoriser, parce que c'est un petit amount
de data, et ça commence à mémoriser.
Ok, vous pensez que c'est un mot,
je vais l'écrire,
et
j'ai eu un peu de trèques
pour ne pas faire le mot pas overfait,
ou, à la fin,
apprendre quelque chose avant que
il est overfait, pour séparer ces deux stages.
Et, finalement, le mot est capable de
voir des notes sur segments
que je n'ai pas vu avant, et
oui,
je suis allé voir les 10 notes
de faire cette liste, comme,
comme, en prétentive.
Je n'ai pas tout compris, je n'en ai pas tout compris,
mais j'ai vu, je t'ai vu accécer.
Est-ce que tu veux peut-être
nous expliquer ce que tu as dit ?
Moi, ce que j'ai compris, c'est que, du coup,
en fait, il a fait une espèce de feedback loop positive,
à chaque fois que le
modèle détecté,
ce qui semblait être,
apparemment, c'était incertain au début
des lettres, ben, il
l'est labellisé, et puis il
les remet dans le training set, en disant,
voilà, on va augmenter la confiance du modèle
sur le fait que ce soit une lettre,
et en fait, il l'a refait plusieurs fois,
et du coup, en fait,
normalement, ce n'est pas forcément
une très bonne façon de faire les choses, parce que,
parfois, tu peux confirmer une erreur, mais là,
comme il s'est dit qu'il n'est pas beaucoup de...
C'est un challenge.
La petite intuition que le modèle a,
je vais l'amplifier à mort,
même si c'est une erreur, au risque que ce soit
une erreur qui l'amplifie, et en fait, au final,
il a quand même trouvé des lettres comme ça, donc c'est cool.
Il a parié que ça partait dans la bonne direction.
Oui, il a parié dans la bonne direction,
et il a...
À chaque fois, il a dit qu'il a fait plusieurs iterations
comme ça d'entraînement, où à chaque fois, il relabelisait
les nouvelles lettres que le modèle détectait,
et après, il l'aurait entraîné là-dessus.
Donc c'est assez cool.
Il est... Et en fait, c'est exactement ça.
Franchement, il a tout dit, il a commencé par un
entraînement auto-supervisé, et après,
il l'étiquetait, il l'abolisait un petit peu
les données qu'il avait en faisant des paris.
En fait, ce qu'il faisait, c'est qu'il enrichissait
le dataset d'entraînement avec ce qu'il avait été
trouvé précédemment,
au risque d'indure le modèle en erreur,
mais c'est pas ce qu'il avait eu le cas, du coup, c'est très cool.
Et ce qui est très cool, c'est que par rapport au premier,
qui a gagné les 40 000 dollars, lui, c'était un peu plus...
Je vais pas rentrer dans le DREAM, mais à la Mano.
C'est vraiment un peu comme si il cherchait les lettres...
Il a eu plus un coup de bol, peut-être, le premier.
Coup de bol, je sais pas, mais...
En vrai, c'est vrai que j'ai moins...
Je n'ai pas l'intérêt au G exactement.
Mais en tout cas, c'est un peu plus de la computer
végaine que de l'apprentissage.
Et donc, c'est plus dur à répliquer.
Exactement.
En tout cas, moi, de ma compréhension du problème,
je parierai potentiellement plus sur Youssef que sur Lucas,
pour la suite, parce que en fait, c'est moi de ce que j'ai compris.
C'est un petit peu plus dur à répliquer.
Et donc voilà.
En tout cas, les deux voires, les trois qui ont été récompensés,
c'est vraiment des monstres.
Là, du coup, si tu as bien compris, la conclusion,
c'est qu'avec tout cet entraînement-là,
à chaque fois, il a amélioré son modèle
pour qu'il arrive à de mieux en mieux généraliser
la détection de lettres.
Du coup, là, à priori, son modèle
permet certes de trouver son paragraphe,
mais il pourrait continuer à lire tout le bouquet, en fait.
Justement, il y a quelques semaines,
il y a une nouvelle image qui a été publiée.
Et il est-il donc...
On est... J'ai sauté deux images.
Tu peux les montrer, c'est des images des papyrus.
Voilà, exactement.
On voit quatre colonnes distinctes.
Ça, c'est une image de Youssef qu'on vient de voir en interview.
C'est une nouvelle image de Youssef.
Il y a du progrès, là.
Il y a du progrès de fou.
On rappelle qu'on est sur un papyrus calciné quand même.
Donc c'est fou d'avoir ce genre de divache.
Ça m'impressionne.
On rappelle qu'on est sur ça.
Une serpillère...
Ça, c'est le même papyrus roulé.
La photo qu'on a vue juste avant, c'était l'analyse...
Je ne sais pas si c'est les mêmes.
Mais c'est un des papyrus.
Du coup, il y avait des colonnes.
Depuis le début,
il y avait des colonnes, ce qu'on ne savait pas.
Ça, c'est ce que Youssef a réussi à envoyer à l'équipe.
C'est la dernière image qu'on a publiquement.
Et du coup, à votre avis, est-ce qu'il essaye de poursuivre
pour gagner les 700 000 balles ?
Oui, j'imagine.
Il est si pris.
Oui, pour sûr.
C'est difficile de quitter quand je ne pouvais pas voir les lettres.
Et maintenant, je vois beaucoup de lettres.
C'est difficile de quitter.
Donc je vais travailler jusqu'à la fin de l'année.
Et j'espère que je peux mettre ça à la grand-père.
Il est addict.
Globalement, il m'a accordé une interview, mais il est addict.
Il cherche que de voir ces paragraphs.
Mais du coup, il a mis un open source ?
Oui.
Donc les gens, c'est la course pour avoir les 700 000 balles ?
C'est d'autant plus la course que ce prix de 700 000 dollars
pour lire ces quatre paragraphs court jusqu'au 31 décembre.
Il est gentil d'avoir partagé en vrai.
Mais il me semble que c'est un peu dans les...
En fait, t'es obligé de pour soumettre et avoir les papiers.
Alors oui, les colonnes, je n'ai pas exactement compris
dans quel cadre il avait fait,
est-ce que c'était pour corroborer sa découverte précédente ?
Mais globalement, tout le monde publie un peu tout ce qu'il fait.
Alors, pas forcément dans les mêmes timings.
Parfois, tu veux garder une avance, donc tu publie un peu en retard.
Est-ce que le chat est toujours là où tout le monde s'est barré pour bosser dessus ?
Mais globalement, c'est documenté de fou.
C'est un puits de connaissance.
Tout est sur GitHub.
Vous allez sur le GitHub de Gusef, ce que je vous ai raconté.
Vous le trouvez.
Vous le trouvez sur l'entraînement, etc.
Tout ce qu'il a fait, son approche.
Sur le site, tout est répertorié, donc sur le site du Challenge.
Et voilà, merci beaucoup à lui d'avoir répondu à mes questions.
Et vous pouvez aller le suivre sur Twitter.
Il ne va pas comprendre, il est douce à bien.
Il ne s'est dit pas dans les missions, mais il ne sait pas quand.
Allez le suivre sur Twitter, ça lui donnera de la force.
Et moi, j'ai envie de mettre une petite pièce sur lui.
J'adorais que...
Tant qu'on l'a vu dans les missions, je me suis attaché, tu vois.
Et j'adorais qu'il aille au bout du challenge.
Ce serait con que ce soit lui qui allait au bout.
Ah, ça serait incroyable.
Trop stylé, trop fort.
Trop fort. Non mais c'est eux, ils sont trop forts.
Et du coup, le texte, ils l'ont traduit.
Le texte qu'il a réussi à...
Il est paragraph.
Je crois qu'ils n'ont pas encore lu.
Ah, ok.
Oui, il me semble.
C'est quand même le monde dur dans ton histoire, je crois.
Oui, mais alors, en fait, souvent, c'est pas eux qui font la traduction.
Oui, oui, bien sûr.
En plus, des experts d'IA, ce ne sont pas des experts d'IA.
En gros, eux, ils envoient l'image et derrière, t'as des experts du grec ou du latin.
Parce que ça avait l'air lisible.
Oui, oui, c'est vrai.
Mais je ne sais pas dire.
On a pas la traîne.
Mais en vrai, peut-être si tu vas sur le site internet,
je sais peut-être une info que j'ai manquée, honnêtement.
Trop cool.
Mais voilà.
En fait, il y a eu beaucoup de communications au niveau...
Quand le premier challenge, ils ont versé l'argent aux trois gagnants.
Donc ils ont dit que ça voulait les dire pauper.
Ouais, dis-moi.
Je suis allé m'adresser à ça.
Pourquoi ?
C'est une recette de kebab.
Ben oui, oui, oui, bien sûr.
C'est la recette de kebab la plus chère de l'histoire.
Ah ouais, c'est clair.
Mais tu sais que...
C'est bien tout ça pour ça.
Je disais, mais j'ai lu des interviews d'historiens
qui sont vraiment dans l'histoire.
Il y a des textes dont on sait qu'on a perdu,
mais qu'on sait qu'ils existent.
Ah oui.
Et donc moi, j'ai lu des interviews de quelqu'un par là.
Il aimerait bien lire le traité que Marc-Antoine a publié.
Je sais pas ce que c'est,
mais quand il le dit, j'aimerais vraiment beaucoup pouvoir le lire.
C'est un de mes rêves.
Et quand je lis des interviews d'historiens qui disent ça,
ils disent que c'est potentiellement possible dans quelques mois là...
J'espère pour lui qu'il va pouvoir lire son traité.
Et les poèmes de sa peau.
Effectivement, moi, j'avais déjà entendu que...
Je prends les tragédies grecques, par exemple.
Je sais pas quelle est la fraction,
mais c'est un % en quasiment rien,
malgré le fait qu'on sait que le dépôt était gigantesque.
Et ce qui est fou, c'est qu'on sait qu'on ne sait rien.
Tout ça, c'est grâce à des recherches dans la beaux,
des étudiants qui travaillent collaborativement en ligne sur Kaggle,
d'un investisseur qui a mis des sous pour en créer un challenge.
Je trouve l'histoire trop belle et incroyable.
C'était pas prévu, ça.
Versi-t-il.
Le petit même de l'Ai, qui nous va bien.
Je rends à César, ce qui était à César,
c'est dans le billet de blog...
Oui, de Kaisae, oui, exact.
Oui, je me disais bien que je l'avais lu.
Et ce billet de blog, si vraiment vous voulez en savoir plus,
sur les techniques, le big blog, je l'ai pas envoyé au médiatère,
tapez Kaisae and...
Ah ben c'est ça, voilà exact.
Ce billet de blog de 15 pour le mec de long.
Et là, vous vous endormez avec.
Trop bien.
Merci beaucoup, c'était trop cool.
Je veux dire, je pense que c'était de mes préfets.
Et ben c'est grâce au gens qui ont mis ça en place.
...

Les infos glanées

Je suis une fonctionnalité encore en dévelopement

Signaler une erreur

Underscore_

IA, Hacking, Robotique — Des conversations de terrain avec ceux qui construisent. 🥨


Partenariats: underscore@micorp.fr


---


Hébergé par Acast. Visitez acast.com/privacy pour plus d'informations.

Tags
Card title

Lien du podcast

[{'term': 'IA', 'label': None, 'scheme': 'http://www.itunes.com/'}, {'term': 'Investissement', 'label': None, 'scheme': 'http://www.itunes.com/'}, {'term': 'Nouvelles Technologies', 'label': None, 'scheme': 'http://www.itunes.com/'}, {'term': 'Tech', 'label': None, 'scheme': 'http://www.itunes.com/'}, {'term': 'Actu tech', 'label': None, 'scheme': 'http://www.itunes.com/'}, {'term': 'Cybersécurité', 'label': None, 'scheme': 'http://www.itunes.com/'}, {'term': 'Développement', 'label': None, 'scheme': 'http://www.itunes.com/'}, {'term': 'Dev', 'label': None, 'scheme': 'http://www.itunes.com/'}, {'term': 'Entreprenariat tech', 'label': None, 'scheme': 'http://www.itunes.com/'}, {'term': 'IT', 'label': None, 'scheme': 'http://www.itunes.com/'}, {'term': 'Robotique', 'label': None, 'scheme': 'http://www.itunes.com/'}, {'term': 'Technology', 'label': None, 'scheme': 'http://www.itunes.com/'}]

Go somewhere