S5E7 - Sommes-nous à l'aube d'un effondrement des IA ?

Durée: 124m10s

Date de sortie: 24/01/2025

Si l'épisode vous a plu, pensez à laisser 5 étoiles pour nous soutenir !

Hébergé par Acast. Visitez acast.com/privacy pour plus d'informations.

A au fait maman merci pour le conseil.
Ah oui lequel ?
Ouvrir l'assurance vie carac et par une patrimoine ?
Ah oui.
En 2024, le fonds euro de la carac m'a rapporté 3,50%.
Mais oui la carac s'occupe bien de nous et depuis longtemps.
Et nous avons un conseiller en patrimoine dédié qui change tout.
Et jusqu'au 31 mars, la carac me donne 50 euros si je verse 2000 euros.
Et ça peut aller jusqu'à 1000 euros offert.
A la carac, on se bat pour vous.
Les taux passés ne préjuchent pas des taux à venir.
Taux net de frais avant prélèvement sociaux.
Offre soumise à conditions, plus d'informations sur carac.fr.
Mutuelle soumise au livre 2 du code de la mutualité.
Soit et bienvenue dans l'Onderscore.
C'est mercredi, il est 19h.
Et c'est une émission qui est un petit peu hors calendrier.
Mais c'est pour apprendre des vacances un peu tranquilles à Noël n'est-ce pas ?
Non c'est bon parce que c'est la dernière de l'Union.
Je ne savais pas comment faire une date.
Non mais il nous a tous fait chialer d'obingoyer.
Pour ceux qui ne le savent pas mais c'est un peu la fin de la version hebdomanière de Popcorn.
Et non parce qu'on va la reprendre.
Et du coup on se décale le mardis.
Ils ont tous dit ça dans l'équipe.
Evidemment ça doit être dur je pense.
C'était pas une décision facile.
Moi j'imagine arrêter l'Onderscore.
Qui nous équipe derrière ?
C'est ça évidemment.
C'est encore plus gros comme le team que nous.
Et donc ça doit être une lourde décision.
Ce qui est un peu curieux c'est qu'on en parlait ce midi mais c'est pas comme Zen.
On avait un an et demi pour voir la foi arriver.
Ils l'ont annoncé en avance.
Là c'était rapide.
De quoi qu'ils l'ont annoncé en avance ?
Zen.
Ah Zen oui ok.
L'émission.
D'ailleurs tout à l'heure Domingo dans son live a parlé du fait qu'il y a deux émissions.
Il y avait zératoires qui étaient là en live et qui a fait un milliard de vannes sur le
fait que c'était la dernière de Popcorn et ils faisaient ça au hasard c'était des vannes
pour lui.
Il a dû mettre un tweet zératoires en mode je ne le savais pas c'était des blagues.
En vrai je trouve ça encore plus marrant.
Il n'y a pas de bonne manière d'arrêter l'émission.
Bref bienvenue dans l'Onderscore.
Nous avons un beau programme qui ne sert pas plein de diglation avec un superbe invité
Correntin.
Bienvenue avec nous.
Merci bonjour.
Et on est très très content de te recevoir avec toi on va parler de cyber security.
Je rentre un petit peu dans le détail plus tard sur le plan et on aura une deuxième
partie plutôt accessoire lia.
J'étais en speed tout à l'heure pour changer le titre du live j'ai écrit Honeypots et
AI Doom.
En moins de caractère possible.
Voilà donc ça vous donne une idée du programme.
On ne fait pas de petites news comme d'habitude.
Oui ça va bien je ne sais plus si j'ai croisé des news intéressantes cette semaine sans
doute mais vu que je ne les ai pas notés je les ai oubliés.
Il y a de la culture intéressante.
Je sais que c'est la folie des crypto en ce moment.
Ah oui oui oui.
Du coup ça prend un peu d'espace sur l'actu tech et crypto.
Je ne suis pas très…
Voilà un petit peu quoi.
On va dire que Hsher doit faire des vues.
Exactement.
C'est un signal très intéressant quand Hsher arrive dans ma home page.
Je ne regarde pas très souvent j'avoue.
C'est un signal.
En général c'est que je peux deviner qui il est trop tard pour acheter.
Exactement.
Non mais je crois qu'il y a encore plein de news il y a à droite et droite.
Récemment tu as aller à des conférences on face non ?
Oui ou non ?
Je suis allé une journée de conférence qui s'appelle les happy days où j'ai croisé
quelques abonnés d'ailleurs.
Ah cool.
Des gens qui…
Ils étaient gentils.
Oui souvent c'est pour me parler d'un truc.
Ah vous pourriez te parler de ça ?
Ah oui oui.
Que je prends des notes ?
Bah carré.
Et non j'ai vu des conférences et c'était pas mal des conférences sur lia mais il
n'y avait pas que… il y avait a game face.
Il y avait notre invité de deuxième partie d'ailleurs qui parlait d'un autre sujet.
C'est un gros conseil en fait.
Mais il y avait d'autres genres.
Mais c'était une coïncidence pour lui mais vous savez qu'elle serait là.
Si il y avait notre cher Jean-Louis de Gladiat qui était là aussi.
Bref il y avait du petit monde et il y avait des conférences intéressantes et des conférences
moins intéressantes.
Le principe finalement.
Faudrait qu'on fasse du maire de channel score pour que tu puisses le maître et être
vraiment sur des traces.
Non j'étais pas du tout rassolé.
C'était tout va bien.
Le programme.
J'entends un peu plus dans le détail mais c'est d'abord avec toi Quentin.
On va parler donc de cyber sécurité parce qu'il y a un sujet.
On va entrer dans le détail juste après mais d'abord je voulais réagir un truc qui est
assez marrant c'est que quand on a dit qu'on voulait parler d'Honypotes.
Tout le monde nous a parlé de toi.
Ah oui ?
Oui.
Ok trop bien.
On a eu plusieurs mails.
On a eu plusieurs mails.
On va te contacter Quentin.
Donc il semble que tu es monsieur Honypotes.
Je m'intéresse beaucoup à ce sujet depuis pas mal d'années.
En plus j'ai développé mon propre Honypotes, une solution là dessus.
Je m'intéresse beaucoup.
On m'en discutait un petit peu avant mais effectivement rien que le concept qu'il y ait des spécialistes
du Honypotes.
C'est un truc que je ne savais pas.
Mais dans tous les cas on va repartir du début pour que tout le monde comprenne.
Déjà le point de départ.
Ce que beaucoup de gens ne savent pas, ce que beaucoup de gens ne savent pas c'est que
quand tu achètes un serveur genre un VPS ou n'importe quel serveur dans un data center
instantanément tu vas te faire attaquer par des milliers de machines en fait.
Oui exactement.
Et ça va très très vite.
Tu peux le mettre en quelques secondes.
Tu as déjà des premières IP qui viennent te scanner, vérifier les ports qui sont ouverts,
les versions des services qui sont dessus.
Donc c'est instantanément.
Mais ça déjà c'est fou.
Et qu'on soit bien d'accord c'est pas des humains qui sont en train d'essayer de tenter les attaques à la main.
Non non c'est des scanners, des bots.
Il y a un peu de tout donc des bots qui vont chercher des vulnabilités.
Il y a aussi des scanners qui font une cartographie d'internet.
On en connaît plein type Shodan, des bots de Google qui parsent les web pages.
Et voilà il y a tout ce beau monde qui essaye de découvrir un peu qui sont derrière toutes les IPs.
Et comme les IPs, les services viennent et repartent.
On peut acheter un VPS avec un service dessus, le laisser tomber.
Il y a quelqu'un d'autre qui va le reprendre et reprendre l'IP.
Donc ils sont obligés de scanner en permanence pour être à jour.
Mais ça c'est un truc qui honnêtement, qui surprend.
Je sais que la première fois que j'ai loué un VPS,
tu as un peu cette sensation que tu viens d'obtenir une adresse IP.
Donc c'est bon tu as ton adresse postale sur internet.
Tu as l'impression que tu es tranquille, entre guillemets, que personne ne sait que tu existes.
Oui, totalement.
Et en fait c'est pas le cas vraiment dans les secondes qui suivent.
Tu vois tout un tas de monde passer, t'envoyer des requêtes.
Alors ça peut être juste des pings, ça peut être des tentatives de connexion
à ton sssh, donc le système de contrôle à distance de ton serveur.
C'est un peu comme si tu venais d'acheter ton ordi et là instantanément
tu vois des gens qui essaient de te connecter dessus, c'est quand même assez perturbant.
Comment ça se fait qu'ils savent que tu es là ?
Au final quand on réfléchit un petit peu, le nombre d'adresses IP V4
qui y a de disponibles, elle est quand même assez faible.
Donc il explique un petit peu plus ce pattern d'adresse IP,
comment ça se fait, comment ça marche.
Donc les adresses IP c'est ce qui définit un petit peu l'adresse d'un serveur
ou d'un service sur internet.
Et ça va, donc il y a quatre groupes de chiffres
et chaque groupe va de 0 à 255 en gros.
Donc ça fait un pattern qui est super limité.
Et il y a des scanners qui vont, ils commencent avec 001, 002
et ils continuent jusqu'à qu'ils ont fait tout le tour.
Et surtout, tous ces IP, ils essaient de trouver des vuléarmités
ou simplement savoir quel service il y a derrière.
Donc en fait, comme moi, je vois ces logs sur mon serveur,
c'est pas que j'ai été targeté personnellement.
C'est juste qu'ils passent continuellement et ils voient des choses intéressantes.
C'est ça.
Et c'est même ce qui arrive généralement dans les entreprises.
C'est-à-dire qu'une entreprise qui va se dire
« moi je suis une petite entreprise, c'est pas très intéressant,
je n'ai pas besoin de trop mettre à jour mon site web. »
Au final, si, parce qu'il y a justement des bots automatisés
qui passent sur ces sites web, qui cherchent des vuléarmités
de manière automatisée encore une fois,
pour exploiter, pour prendre le contrôle du serveur en question.
Il cherche quoi en fait ?
Ça sert à quoi de, moi mon petit VPS qui n'est pas très puissant,
qui tourne du coup sur mon serveur,
en quoi il va intéresser des hackers en fait ?
Il y a plusieurs grosses catégories de ce qu'on peut faire
avec un serveur une fois qu'on contrôle.
Le truc le plus classique, c'est forcément de la donner un petit peu confidentiel.
Si c'est une entreprise, je vais essayer de récupérer des data clients,
des mots de passe, des adresses mails, ce genre de choses.
Après, on pourrait dire « moi j'ai absolument rien sur mon serveur,
donc c'est pas très grave. »
Moi, j'ai pas de e-commerce qui tourne dessus,
il n'y a pas de cartes de crédit, il n'y a rien.
Il n'y a rien.
C'est un intérêt, c'est quand même les attaquants,
parce qu'on peut utiliser soit la puissance de calcul du serveur
pour lancer des cryptomineurs, donc des programmes
qui vont miner de la crypto,
et du coup, leur but, c'est de compromettre le plus de serveurs possibles
pour déployer tous les cryptomineurs un petit peu partout
et avoir un peu l'énergie gratuite au final.
Ça se fait de moins en moins,
parce que c'est de plus en plus difficile de miner de la crypto.
Mais ce qui est aussi très intéressant,
c'est qu'on a parlé d'adresse IPv4.
Une adresse IPv4, c'est relié à quelqu'un,
une identité, si j'achète un serveur,
le serveur, c'est bon qu'il achete avec ma carte de crédit, etc.
C'est possible de, à partir d'une adresse IP,
remonter à une identité personnelle du détenteur.
Potentiellement, oui.
Et du coup, ces attaquants, ce qui les intéresse,
c'est aussi d'utiliser votre serveur,
comme passerez-le de rebonds pour attaquer d'autres services,
et du coup, masquer un petit peu leur identité.
Donc parfois, leur but, c'est pas forcément d'exploiter le serveur
ou même de se faire détecter,
mais c'est juste d'utiliser le serveur comme passerez-le.
Et du coup, les attaques, elles ne viennent plus de leur serveur,
mais elles viennent du vôtre.
Ah ok, donc ils te font porté le shop, en fait.
Exactement, oui.
Et donc là, j'imagine que ça peut être pour du botnet,
ou des campagnes de phishing.
Oui, par exemple, c'est ça, oui.
On peut amener plein d'attaques derrière,
et c'est beaucoup plus intéressant,
parce que du coup, l'IP, elle est plus connue, on va dire,
que si on sortait du réseau Tor, par exemple,
qui est tout de suite détecté, parce qu'il y a très peu d'IP,
mais on va en parler.
Il y a un truc qui est pareil, qui arrive,
c'est que ça peut être utilisé aussi comme un serveur de contrôle de malware.
Donc en gros, ton serveur peut devenir
une sorte de chef d'orchestre de botnet zombie.
Oui, exactement.
Et c'est toujours la même idée derrière,
c'est l'idée de cacher l'identité de l'attaquant.
C'est-à-dire que, pareil, au lieu de contrôler plein de PC
et que tous ces PC remontent à l'attaquant,
ça va remonter à un serveur distant.
Donc ça veut dire que, pendant l'enquête,
une fois qu'ils vont analyser les gens-sérieux des machines des victimes,
ils vont dire, les méchants, ils sont là,
et en fait, c'est moi.
Oui, c'est ça.
Et du coup, après, on est obligés de mener encore une autre enquête.
Ok, depuis quand ils sont sur ton serveur,
qu'est-ce qu'ils ont fait sur ton serveur ?
Et ça complique énormément la chose si on est sur 10 serveurs de suite
dans des pays différents.
Oui, parce qu'ils les enchaînent.
Bien sûr, oui.
On peut les lier à la suite, et ça fait une petite chaîne.
Sympa.
Intéressant.
J'ai entendu parler d'un truc aussi, c'est la fraud au clic.
Je ne sais pas si ça te parle,
mais je sais que c'est juste pour...
C'est ça te disait quelque chose,
c'est un cas d'usage apparemment de péter un serveur,
c'est de faire du clic fraud.
Je pense que ça va voir avec les pubs.
Oui, alors ça, ça me parle moins.
Mais ça doit être un peu dans la même idée.
Il y a aussi l'idée de...
Si je mène une attaque depuis une IP,
cette IP va se faire blacklister par le site.
Elle va se faire bannir.
Du coup, l'attaquant, lui, il a tout intérêt à changer d'IP
pour continuer son attaque.
Et donc c'est intéressant s'il a compromis plein de serveurs
pour mener son attaque depuis plein de serveurs différents.
Dès qu'il y en a un qui se fait attraper et bannir,
il redirige son flux d'attaque sur un autre serveur et continue.
Et du coup, avec les...
Juste l'IP est une ressource de valeur.
Oui.

Et justement, ce qui fait que tous ces serveurs intéressent les pirates,
c'est ça qui permet, notre sujet du jour,
qu'il y a un truc assez fou que très peu de gens connaissent,
c'est qu'on peut prendre les attaquants à leur propre jeu
en créant des faux serveurs vulnérables.
Exactement.
Et du coup, on va se dire, si on met un serveur sur Internet
qui se fait attaquer au bout de cinq minutes,
je vais en mettre un volontairement vulnérable sur Internet
et attendre qu'il se fasse attaquer.
Et plutôt que de me dire, je ne sais pas quoi faire avec tous ces attaques,
on va les analyser.
On va dire, bien, d'où est-ce que ça provient,
quel IP est derrière, quel type d'attaque y font,
quelles sont les choses qui recherchent au final.
Et l'idée, c'est de comprendre les attaquants,
les attaques qui mènent depuis où il est mène,
et mieux se protéger derrière.
Ok.
Mais du coup, concrètement, comment tu fais ?
Comment tu crées un faux serveur vulnérable ?
Il y a plusieurs, on va dire, deux grosses catégories de onipote.
En l'occurrence, il y a ce qu'on appelle...
C'est le terme officiel, c'est ça ?
C'est le terme, quand on met un faux serveur
qui est là volontairement vulnérable pour attraper des attaquants
ou des attaques, on appelle ça onipote.
Parce que...
Pau de miel, c'est intéressant, ça attire.
Pas parfait.
Ça vient de là.
Éclair.
Et oui, il y a deux grosses catégories de type de onipote ou d'approche.
On va appeler ça les low interaction, donc interaction basse,
et high interaction, interaction haute.
On va séparer en fait ces types d'approche et d'onipote
en fonction du code et du service qu'on met derrière.
Est-ce qu'on simule un serveur vulnérable,
c'est-à-dire l'attaquant, et essaye de se connecter à un serveur SSH ?
Moi, je le réponds exactement le protocole, les bonnes bannières,
tout ce qu'il faut, mais c'est moi qui le fabrique au final.
Ou est-ce que je mets un vrai serveur SSH,
de telle et telle version, je sais qu'il est vulnérable à cette version,
et je le laisse se faire attaquer.
Ces deux approches un petit peu différentes.
Ok.
Et justement pour comprendre un peu mieux,
c'est qu'est-ce que tu peux attraper comme genre de poisson,
entre guillemets, et qu'est-ce qu'ils font,
quels infos on peut avoir sur eux.
Tu nous as préparé une expérience,
donc un vrai onipote, tu nous montras ça tout à l'heure,
les résultats que t'as eu, les trucs que t'as attrapés.
Mais il y a un truc que je voulais mentionner avant,
c'est qu'en réalité, l'idée même du onipote, elle est assez ancienne.
C'est très, très vieux, oui.
Il paraît qu'on a piégé des agents du KGB comme ça,
dans les années 1985-1980,
même pas que tu avais internet.
Alors internet n'existait même pas,
c'était plus ArpNet et ce genre de choses.
Et ça a commencé dans les années 80-86,
aux États-Unis, et ça remonte avec un astronome,
en plus, qui est à moitié administrateur réseau,
qui gère un petit peu l'administration pour un labo de recherche,
dans les années 86.
Et à l'époque, il y avait des serveurs qui pouvaient être loués,
et qu'on se connectait dessus pour faire des expériences de recherche,
en payer à la minute au temps passé.
Et lui, il géré un petit peu le réseau de ce centre de recherche,
de ce labo.
Et il a un moment, il a détecté qu'il y avait un problème de 75 centimes,
par rapport à une facture.
Donc c'est rien, on peut dire, c'est une erreur de calcul.
Sauf que lui, il a vraiment creusé,
il est allé voir exactement d'où s'approvenait,
pourquoi il avait cette erreur de quelques centimes à la fin du mois,
et il analysait les logs de connexion au serveur.
Parmi ces logs, il a trouvé qu'il y avait quelqu'un qui s'était connecté à un serveur,
et qui n'était pas passé par la case de facturation.
Donc il y avait un manque à gagner, c'est ça,
un usage non payé quoi.
C'est ça, quelqu'un qui s'est connecté, alors que normalement,
quand on se connecte, on passait par la facturation,
ensuite on avait le droit de se connecter, on faisait ses affaires,
et on était facturé.
Et là, il y a quelqu'un qui s'est connecté de manière illégale,
on va dire, sur le serveur.
Du coup, il a analysé les logs en plus,
et il s'est rendu compte que c'était une personne
qui a exploité une vulnabilité assez simple.
C'est un des mots de passe trop simples sur le réseau.
On rappelle, on est en 1986.
Les mots de passe 1, 2, 3, 4, 5, 6, c'était vraiment la norme,
c'est ce qui était utilisé.
Et du coup, la personne qu'on ne connaît pas encore
a tenté de se connecter un peu à tous les serveurs
avec des attaques par rapport de force.
Donc il tentait plein de mots de passe, de manière régulière,
et à un moment, il a réussi à se connecter.
Donc, ok, on a un hacker sur le réseau
qui est là, qui est en train de fouiller,
et on ne sait pas trop quoi en faire.
D'habitude, l'approche un peu classique,
c'est on se dit, on ferme tous les accès,
on trouve la vulnabilité, on corrige,
et on se protège, on essaie de le sortir du réseau.
Lui, il s'est dit que ça serait intéressant d'étudier
comment il est rentré, qu'est-ce qu'il fait,
et qu'est-ce qu'il recherche, et d'où est-ce qu'il provient.
Et c'est à partir de là qu'il s'est dit
qu'il va commencer à lui mettre un serveur
avec des fausses données,
qui ressemblent à des données militaires un petit peu confidentielles,
et loguer toutes les actions de la personne sur le serveur.
Donc, il n'y a plus que la personne.
On trouve plutôt que de instantanément
débrancher le truc et fermer au maximum le réseau
et faire sortir le gars.
Il ne fait rien au contraire pour ne pas éveiller ses soupçons.
C'est ça.
Le but, c'est que l'attaquant ne sache pas qu'il a été détecté.
Et du coup, de laisser un petit peu dans son jeu
et de lui donner des fausses informations
pour le garder sur le réseau et le garder intéressé,
mais plutôt le diriger vers un endroit qu'on contrôle et qu'on maîtrise.
C'est génial.
Du coup, il a fait ça.
Il a enregistré toutes les commandes que la personne faisait
pour voir vraiment d'où ça venait
et travaillé conjointement avec la police de l'époque,
avec les administrateurs systèmes du labo
pour remonter la trace en même temps
que lui, il essayait de le garder intéressé.
Et ça a marché ?
Ça a très bien marché.
C'est revenu jusqu'à un hacker allemand
qui travaillait pour le KGB
et qui vendait de la donnée confidentielle.
Incroyable.
Donc ça, c'est un peu la naissance du onipote.
C'est à partir de là qu'on a commencé à employer le terme onipote.
C'est un peu la naissance du onipote moderne, on va dire.
Et ouais, c'est Cliff Stoll.
Très intéressant.
Je le disais tout à l'heure.
Exceptionnellement, spécialement pour l'émission,
t'as mis en place un onipote pendant une semaine
pour qu'on regarde ensemble,
justement, est-ce qu'il a été attaqué et par qui ?
C'est ça.
L'idée, c'est...
J'ai fait quelque chose d'assez simple.
C'est-à-dire que tout ceux qui s'intéressent un petit peu
au onipote vont tomber sur ce projet
qui s'appelle TIPOT,
qui est le plus gros projet de onipote communautaire
et qui en fait rassemble plein de petits projets
d'onipotes spécifiques dans leur domaine,
des protocoles particuliers.
Il y en a qui sont spécialisés en SSH, en web, en FTP, et ainsi de suite.
Et ils ont tout rassemblé dans une seule solution
qui s'installe en un clic
et qui ouvre un peu tous les ports possibles sur le serveur.
Et derrière, on a un dashboard qui permet de voir ce qui se passe.
Ok.
Et alors, de ce que tout nous a dit, on a eu 228 000 attaques.
C'est ça.
228 000.
Et après, une attaque,
dans ce cas-là, ça correspond à un événement,
à une connexion,
c'est-à-dire une IP qui vient toucher le serveur,
c'est déjà considéré comme une attaque,
même s'il n'y a rien de fait derrière.
Mais il y a aussi dedans,
il y a des tentatives de connexion avec du brute force,
il y a des tentatives d'exploitation
de CVE, de failles connues.
Ah oui, donc tu vois, dans les logs,
il y a le côté testé des mots de passe,
c'est le brute force,
mais tu vois aussi s'ils essaient d'utiliser une faille, en fait.
Oui, typiquement,
lorsque on a un service web
et il y a une vue de la invité qui est détectée,
il y a un numéro d'identifiant qui associe à cette vue de la invité,
donc une CVE,
et les détails de la vue de la invité sont rendus publics.
Les attaquants prennent ces détails-là
et vont scanner internet entier
pour cette faille précise.
Mais du coup, très concrètement,
toi, dans ton interface de Onipote,
comment tu sais que là, il essaie d'utiliser une faille ?
Tu peux voir, par exemple, si c'est une faille sur le web,
l'URL qui est testé
et le chemin complet de l'URL,
qui référence un fichier particulier,
qui fait partie d'une CVE qui est sortie il n'y a pas très longtemps,
et tu peux voir après la data,
même qui est envoyée par l'attaquant,
qui te fait dire que c'est la CVE qui est utilisée.
Ok.
Et donc, dans ce cas-là,
c'est fait pour ou non qu'ils réussissent ?
Dans ce cas-là, c'est typo, c'est que du low interaction,
c'est-à-dire que tous les services sont simulés.
Donc derrière, il n'y a rien qui tourne,
il ne pourra jamais trouver de vulainité.
C'est juste pour voir qu'est-ce qui est reçu comme requête, etc.
Et alors, de ce que j'ai compris,
tu peux quand même voir que quel script
il veut exécuter si c'est du malware,
des crypto-magnores, des choses comme ça.
Oui, souvent, par exemple, le port SSH
est volontairement laissé ouvert,
c'est-à-dire qu'importe qui peut se connecter
avec n'importe quel utilisateur,
n'importe quel mode passe.
Ok, donc si on leur donne quand même un accès à la machine, quoi.
Oui, là, c'est du medium interaction,
parce que c'est un faux shell SSH.
Donc, même là, c'est simulé derrière.
Mais on peut voir, il est temps de mettre des commandes.
C'est ça.
Derrière, on récupère les commandes qui sont testées.
Et là, ils font quoi ?
Et donc là, on récupère aussi principalement des bots,
comme toujours, qui vont plutôt tester
d'installer des malware ou des crypto-miners
d'autres serveurs.
Ok.
Et ça, du coup là, c'est moi.
C'est un des dashboard.
Du coup, ça, c'est un dashboard que tu as quand tu manipules ton...
Oui, c'est un des dashboards,
il faut savoir qu'il y en a plusieurs en fonction des services
qui sont déployés dessus.
Il y a un dashboard un petit peu général.
Et là-dessus, c'est à gauche, les username à droite,
les mots de passe qui sont testés.
Et on voit en bas à droite aussi la liste des commandes
les plus classiquement utilisées,
testées en premier lieu par les attaquants.
C'est trop bien.
Et du coup, là, c'est quoi le nuage de mots ?
C'est le...
En gros, plus c'est gros, plus ça a été testé.
Donc là, route, c'est le mot de passe le plus testé par les attaquants.
C'est route-route, c'est l'utilisateur par défaut.
Moi, j'ai une question.
Tu dis qu'il tente d'installer des scripts de malware, de crypto miner.
Qu'est-ce qui fait qu'il n'y arrive pas ?
Il y a une protection dans le onipot ?
Oui, parce que derrière, c'est du simuler.
C'est-à-dire qu'on va juste le répondre avec, par exemple,
on peut répondre ce qu'on veut.
Donc, typiquement, s'il cherche un malware d'un autre serveur,
on peut lui dire, OK, tu l'as bien récupéré,
mais ça atterrit nulle part, la commande n'est pas vraiment exécutée.
C'est l'équivalent d'écrire dans un Word la commande,
et tu fais entrer, il se passera rien non plus.
Mais il n'y a pas d'erreur qu'il laisserait penser qu'il y a un problème de son planter ?
C'est là où on arrive un peu à la limite des onipot long interaction de ce type-là.
C'est très facile de détecter que le serveur qu'on a installé, c'est un onipot.
Ça se voit, il y a plein de...
Quand tu mets un eco-coucou, tu n'auras pas marqué coucou.
Ouais, c'est ça.
Mais, basiquement, putain, je suis vraiment avec.
C'est très facile de le détecter pour un humain, mais du coup, pour les bots, ça peut...
Voilà, ouais.
Et c'est là où on voit un peu des styles différents.
Il y a des bots qui essayent de détecter d'abord s'ils sont sur un onipot avant de télécharger le malware,
pour éviter que justement, les gens qui ont aidé un onipot récupèrent le malware en question
et que ce malware s'appliu-tisable.
Ah...
Et donc après, c'est un peu le jeu de est-ce que le bot est vraiment très basique,
il teste tout et dès qu'il a une réponse, il y va.
Ou est-ce que ça peut lever une alerte en attaquant
et il y va manuellement pour essayer de voir si c'est vraiment intéressant avant de déployer son malware.
Ok, il y a des différents niveaux d'expertise de l'attaquant.
Ouais, c'est ça.
Là justement, si on regarde un peu les commandes qui sont typiquement exécutées par les attaquants,
on voit un truc qui s'appelle un downloader.
C'est quoi ça du coup ?
L'idée, c'est que l'attaquant ne va pas déployer son malware directement.
Il va d'abord le récupérer sur un autre serveur.
Donc en général, lorsqu'il y a une faille, on déploie un petit script qui paraît inoffensif
parce qu'il fait juste télécharger quelque chose d'Internet.
Et ça passe plus facilement les solutions de sécurité, les antivirus.
C'est pareil quand on essaie de compromettre une entreprise, quand on fait un phishing,
le malware n'est pas délivré directement en piagiointe.
C'est plutôt une première étape qu'on appelle un Stager
qui va télécharger le virus plus complet avant de l'exécuter.
Et cette première étape, elle peut faire plein de petits checks en amont.
Déjà, c'est comme on l'a dit, voir si c'est un onypote,
voir si c'est la bonne cible,
voir s'il y a des choses intéressantes avant de télécharger.
Est-ce qu'il est dans une sandbox ?
C'est-à-dire, est-ce qu'il est dans un environnement clos
qui est justement dédié à le faire exécuter quelque chose ?
Ou est-ce qu'il est sur une vraie machine ?
Et du coup, tous ces étapes sont faites avant de télécharger la vraie ressource.
Ok, hyper intéressant.
Parce qu'il y a un truc qui n'est pas forcément connu, c'est que
dans ce grand jeu du chat et de la souris entre les attaquants
et les solutions d'Antimalware, etc.
La ressource qu'il y a de la valeur pour l'attaquant, c'est son Malware.
Et le fait qu'il a conçu pour être non détecté, non détectable,
et que pour l'instant, il n'est pas encore connu.
Donc tout ce travail-là, il n'a pas envie de le gâcher, en fait.
C'est exactement ça.
C'est hyper important pour lui de l'exécuter au bon endroit
sur une ressource réelle.
Parce qu'une fois que c'est détecté, il ne peut plus l'utiliser.
Et tout le monde se passe sur le mot, toutes les solutions, partage des bases,
virales, machins, tout ça.
Et c'est fini quoi.
Oui, c'est comme le site Web Virus Total,
qui permet de tester si un executable contient un virus ou pas.
Dès qu'on télécharge, quand on téléverse un fichier sur ce site,
ça va être ensuite partagé à tous les éditeurs d'Antivirus,
qui mettent à jour leur base en direct.
Donc là, par exemple, nous, dans la liste des...
tous les bottes un peu con-con qui nous ont envoyé des malowaires sur notre truc,
on peut être un peu pressur qu'ils sont sur un virus total.
Oui.
Parce que justement, il y a des trucs automatisés comme ça,
qui vont les uploader tout seul.
Exactement.
Pareil, sur toutes les IPs qui attaquent,
tout ce qu'on voit, tout le trafic qui arrive sur ce serveur,
dans 98, 99% des cases, c'est des IPs qui sont déjà connus
de la communauté de cyber sécurité.
Grâce justement à des serveurs de ce genre-là.

Il y a des endroits dans les commandes où on voit des adresses IP.
Oui.
C'est celles littéralement celles des attaquants, du coup.
Oui, d'un serveur qui héberge le malowaire ou le script.
Donc ça peut être l'IP d'un attaquant,
ça peut être une IP qui a été compromise auparavant,
ça peut être une IP d'un RVPS qui a été acheté pour l'occasion.
En général, c'est un peu s'écalant.

Oui, ils ne sont pas chez eux après.
Non, c'est pas l'IP de la maison.
C'est hyper stylé.
J'ai entendu un truc aussi, c'est qu'il paraît que pour faire un bon ony-pot
qui attire donc les attaquants,
il y en a certains qui vont plus loin que ça justement
et qui créent carrément des faux réseaux
voire des faux applications.
Oui.
On peut aller aussi loin qu'on veut jusqu'à ce qu'on appelle plutôt les ony-nets.
Donc c'est un ensemble de ony-pot.
Ony-nets.
Oui, pour ony-pot network.
Et on peut déployer carrément un réseau d'entreprises
complètement fictifs, mettre des fausses données dessus,
des faux utilisateurs, mettre un point d'entrée,
du coup, exposé sur Internet vulnérable
et laisser l'attaquant se balader sur notre réseau.
Un peu comme l'histoire qu'on a vu auparavant,
mais cette fois-ci tout est contrôlé, tout est surveillé.
Et donc là, contrairement aux commandes basiques,
tu vas avoir des chances de trouver des profils d'attaquants
que c'est un peu plus intéressant, c'est ça ?
Oui.
Là, potentiellement, on peut avoir des choses un peu plus évoluées,
plus stratégiques, mais la difficulté dans cette approche-là
c'est d'attirer l'attaquant au début.
C'est-à-dire que, comme on l'a vu, si on est en méni-pée,
elle se fait attaquer, mais elle se fait attaquer par des bottes.
Nous, on veut qu'elle se fasse attaquer par vraiment...
Ouais, c'est ça.
Et comment on fait ça ?
C'est quoi un peu les techniques ?
Pour mettre en place justement des techniques stylées
ou un humain, un attaquant humain derrière va dire
ça, potentiellement, ça m'intéresse vraiment.
Il faut...
Alors là aussi, il y a plein de stratégies.
On peut imaginer créer une histoire,
une histoire autour de la fausse entreprise
qu'on aimerait simuler.
Donc lui donner un nom, lui donner des noms d'utilisateurs,
des fichiers un peu intéressants, de l'activité sur le réseau.
Typiquement, si l'attaquant arrive sur un serveur
et qu'il voit qu'il ne relient à rien, qu'il communique à écrit un,
il ne va pas déployer son malware.
Comme on a vu, c'est une ressource importante.
Donc il va dire qu'elle s'est trop louche, je n'y vais pas.
Ou sinon, il va essayer de faire de la recherche sur Internet,
par exemple, quel type d'entreprise il a attaqué,
est-ce que le nom déjà existe, ce genre de choses.
Et nous, dans toute notre stratégie,
il faut qu'on soit hyper réaliste.
Y compris sur le point d'entrée.
Donc on ne peut pas déployer un type-hôte,
comme on l'a fait pour l'expérience.
Parce que là, il y a une cinquantaine de ports qui sont ouverts.
Ça crie de partout que c'est un audipote.
Attaquez-moi !
C'est ça.
Donc il faut qu'on ouvre quelques ports,
quelques applications bien spécifiques,
et qu'on réponde de la manière la plus réaliste possible.
Ok, donc par exemple, scénario, exemple.
Comment tu choisis ton entreprise,
et c'est quoi un bon réseau ?
Qu'est-ce que tu fais ?
Typiquement, on pourrait imaginer, généralement,
soit des petites entreprises, des PME,
qui a un site web,
qui est un site web un peu mal configuré.
On pourrait imaginer un WordPress qui se fait souvent attaquer,
avec des plugins un peu vulnérables,
qui donnerait le point d'entrée.
Un ssh, par exemple, qui sert pour la gestion administrative du serveur.
Mais cette fois-ci, avec des bons mots de passe,
donc on ne va pas laisser tout le monde se connecter
avec route-route, parce que ce n'est pas réaliste.
Oui, donc c'est un moyen de filtrer les bottes,
c'est de mettre au moins un mot de passe un petit peu robuste,
histoire qu'il y ait du travail manuel d'un humain,
ou d'un système au moins.
Il faut qu'il y ait un mot de passe qui fonctionne, et pas à 50,
parce que sinon, ce n'est pas logique non plus.
Et une fois qu'il arrive sur ce serveur,
il faut lui donner un peu de la donnée, de la vie,
sur le serveur en question,
donc typiquement, des faux fichiers qu'on pourrait déployer,
des faux utilisateurs, des bases de données, pareil.
Et j'imagine que par exemple, les solutions d'antivirus,
elles ont plein de oninettes,
ça doit être un de leurs travail d'essayer de créer plein de faux réseaux,
de fausses entreprises, pour justement mettre un jour, entre guillemets leur...
Alors il y a des entreprises qui sont spécialisées dans ce domaine-là,
et c'est un domaine qui est beaucoup plus large que juste le onipote,
il y a plein de stratégies, mais c'est ce qu'on appelle la CTI,
pour threat intelligence.
L'idée, c'est de essayer de comprendre les attaques qui sont en cours,
les vulnubités qui sont exploitées de manière générale,
quelles IP sont les plus malveillantes.
Et donc ça peut se faire avec des onipotes,
ça peut se faire avec simplement de la lecture de log,
donc on peut avoir un vrai service qui dit,
ben moi je vois tous les jours, je me fais attaquer par cette IP,
donc qui peut la repartager à tout le monde, et c'est redéployé.
J'ai déjà entendu un terme, c'est de déceptive security.
Ouais, ça c'est encore le terme plus global sur...
pas vraiment la threat intel, mais sur les...
au-dessus du onipote, c'est-à-dire,
toute la branche de la cyber sécurité qui vise à piéger l'attaquant de manière active ou non.
Donc la déceptive, ça comprend les onipotes,
mais ça comprend aussi ce qu'on appelle les onitoken,
qui sont des faux fichiers ou des faux éléments
qu'on pourrait aussi disperser sur Internet.
Ça peut être une base de code par exemple sur GitHub,
qui contient un fichier avec des identifiants,
ou même des clés d'API, mais qui en fait ne servent à rien,
et déclenche une alerte.
Je simule une erreur d'inattention d'un développeur, mais qui...
Exactement, oui.
Bon, on en aura perdu quelques jours,
pour donner un exemple, justement,
de ce qui doit être fait comme ça pour intéresser
des profils un peu plus haut niveau.
Tu as donné l'exemple d'un WordPress,
qui est très typique dans une entreprise,
donc c'est un scénario plausible.
Et Hyperac, tu as des outils qui te permettent
d'installer des vulnérabilités récentes sur ton serveur.
Jacques, en gros, le fait que tu aies des vulnérabilités
qui ne sont pas trop vieillotes,
qui sont un peu plausible, c'est important, quoi.
Oui, il faut rester un peu dans la traîne des attaquants,
c'est-à-dire que, en général, quand une nouvelle vulnérabilité
est sort, il y a une fenêtre de tir de quelques semaines,
où elle va être exploité vraiment en masse,
parce qu'ils se disent, elle est sortie,
il y a quelques semaines avant que toutes les entreprises
se mettent à jour, et donc là, pendant cette période,
je peux potentiellement trouver des services
qui sont vulnérables, des sites web vulnérables.
Et donc, si tu arrives à déployer, en même temps,
que la nouvelle CVE qui vient de sortir,
tu déploies justement cette CVE sur un serveur,
tu auras plus de chance d'attraper des attaquants
un peu nouveaux ou des nouvelles techniques.
Et du coup, ça, c'est un truc manuel,
c'est toi qui vérifie les failles qui y sortent.
Oui, ça peut se faire manuellement,
ça peut se faire de manière automatique.
Mais comment ça va être automatique ?
Après, c'est plutôt des projets.
Donc, moi, je travaille dans une entreprise
qui développe un hôdipote pour les entreprises,
et on a des projets ou des sujets
où on travaille justement pour déployer
ce genre de service de manière automatique,
en allant vérifier les dernières CVE.
Et après, en déployant de manière automatique,
tu peux te dire, voilà, c'est un WordPress avec tel plug-in.
Donc, tu peux analyser rapidement
et déployer ton WordPress facilement,
puisqu'il y a plein de scripts pour le faire,
tel plug-in.
C'est comme, il a rend que juste,
cette technologie existe.
Tout le monde passe son temps assez de corriger les vulnérabilités.
Toi, ton job, c'est d'installer le plus vite possible
le bon plug-in vulnérable à temps pour intéresser.
Des attaquants, c'est un mot, il y a de vrai.
J'ai cru comprendre aussi que, dans ton métier,
vous vous servez de hôdipote aussi au sein même
du réseau de l'entreprise parfois,
du réseau interne.
Mais du coup, c'est quoi l'intérêt
si c'est pas un serveur qui est public ?
Ça a quoi ?
Donc, il y a deux grosses approches sur le hôdipote,
enfin, deux grosses endroits où on peut le mettre,
soit exposé sur Internet avec une IP publique
qui se fait attaquer, comme on dit, en permanence,
soit au sein du réseau interne de l'entreprise,
donc le LAN interne, au milieu des vrais serveurs.
Et là, c'est intéressant parce que, normalement,
les utilisateurs de l'entreprise ne connaissent pas ce serveur.
Il n'y a aucun trafic qui est légitime à aller sur ce serveur-là.
Donc, si on détecte une connexion à ce serveur en interne,
c'est que c'est forcément quelqu'un qui se déplace
sur le réseau, un scanner,
ou en tout cas une action un petit peu malveillante
de reconnaissance du réseau.
Parce qu'en général, quand un attaquant
veut compromettre une entreprise,
on va dire très souvent, soit il exploite une vulérité
sur un serveur, soit il fait du phishing,
et il arrive sur le poste d'un employé.
Oui, donc ça a encore plus intéressant limite
que d'avoir le onipote au moment de la connexion
au internet.
Tu le mets dans le réseau, comme ça,
si quelqu'un se balade dessus,
c'est un gros problème.
C'est ça. Et l'idée, c'est un peu l'opposé
de ce que t'aurais sur internet.
Sur internet, t'as de la connexion en permanence
des alertes tout le temps. Là, normalement,
t'es censé avoir zéro alerte toute l'année.
Parce que la seule alerte que tu pourrais avoir,
c'est si quelqu'un trouve ton serveur,
et si quelqu'un l'a trouvé, c'est déjà qu'il est
dans ton réseau en train de se déplacer,
en train de fouiller.
Il est un peu comme le concept dans les années 80,
avec l'agent allemand du KGB
qui se déplacait sur le réseau du labo.
Ça se fait aujourd'hui quoi.
Et bien on refait la même chose sur l'entreprise.
Mais ça veut dire que quand il y a une alerte qui sonne
sur ce type de onipote,
c'est déjà un peu la merde dans l'entreprise en question.

Ça se réveille un peu tôt dans la nuit.
Il y a une fenêtre de tir aussi très très courte.
Il faut réagir assez vite.
On laisse un petit peu l'attaquant jouer sur le onipote.
On essaie de combler autour.
Soit en bloc tour, on peut carrément couper
l'accès internet de l'entreprise
et tout déconnecter.
Et oui, il y a quelques secondes.
Ça peut être fait automatiquement, ça, par exemple ?
Tu vois un axe aux saveurs ?
Ça déclenche un truc ?
Ça pourrait.
Si tu connectes après tes onipotes, par exemple,
à tes firewalls, où tu dis
dès que j'ai une alerte, je contacte le firewall
en lui disant, bloc toutes les connexions
et t'isole l'entreprise, ça peut être fait.
Trop stylé.
Parce qu'en fait, il y a un truc à expliquer, c'est que
tu travailles dans une boîte qui conçoit
des solutions de onipotes.
Exactement.
Et donc, ça, c'est des trucs que tu as déjà installé,
par exemple, des onipotes dans des réseaux ?
Ouais, on a une solution qui s'appelle trapster.
Et c'est exactement ça, donc c'est du onipote low interaction,
donc les services simulés,
avec des serveurs qu'on va placer
dans les entreprises
au milieu du réseau standard.
Et on va déployer des services qui correspondent
un peu au service de l'entreprise.
Typiquement, si l'entreprise allait
100% sur des serveurs Windows,
on va déployer un faux serveur Windows
avec un petit peu les mêmes sites
ou les mêmes ports, les mêmes services
de déployer pour se fondre vraiment dans la masse.
Et ça marche ?
Typiquement, ce qu'on décrit là,
c'est un scénario d'une entreprise qui se fait
dont on détecte une intrusion
qui n'aurait jamais, qui serait complètement passée
et n'a perçu, t'as déjà eu ça ?
Nous, pour l'instant, on n'a pas eu de cas réels
de nos clients qui sont faits attaquer.
Par contre, on a eu des clients qui mènent
des tests en interne très souvent
qu'on appelle des pen tests
ou des exercices plus gros type Red Team.
Et donc là, on a déjà détecté
des actions de type pen tests, des scans,
des choses aussi automatisées.
Et ça remonte des alers.
Oui, donc c'est pas un
pirate entre guillibets qui s'est favori par le pied
de la souris, mais c'est
un attaquant à qui en général on ne donne
aucune info.
Donc ça marche, en gros, ça marche.
Oui, ils sont censés tester la sécurité de l'entreprise.
On leur dit pas que c'est là, bien sûr.
Et du coup, en se déplaçant
sur le réseau, en faisant
les mêmes actions au final qu'un attaquant,
on lève des alers de la même manière.
C'est génial.
Il parait qu'il y a une histoire
où il y a une red team comme ça
de fausse attaquant, on va dire, pour tester la sécurité
où ils ont travaillé pendant 3 mois, tu me disais.
Oui. Et ils se sont fait avoir,
ils avaient tout et ils se sont fait avoir par un Unipot.
Oui, très souvent, les exercices Red Team,
donc c'est des exercices de
test de mise en condition réelle
de l'entreprise, on va vraiment
essayer de la pirater avec tous les moyens qu'on veut.
C'est-à-dire qu'on peut faire du phishing, on peut s'introduire
physiquement. Enfin voilà, on va vraiment
simuler une vraie attaque.
Et le but, c'est que la Red Team
qui est de l'attaque,
mette à l'épreuve plutôt la Blue Team qui est la défense.
La Blue Team, elle gère
les antivérues, les firewalls, s'il y a des alers
qui essayent de réagir.
Et il y a
une red team du coup
qui a travaillé pendant plusieurs mois, parce que
il y a beaucoup de préparation.
Ils développent des malware spécifiquement pour
la mission.
Ils doivent contourner, j'imagine, d'abord
des sécurité à l'entrée, quoi.
C'est ça, ouais. Donc typiquement, il faut qu'ils arrivent
à compromettre un employé, donc lui envoyer du phishing.
Donc il faut qu'ils développent
aussi le programme qui va être
exécuté sur la machine.
Ensuite, il faut qu'il se déplace, qu'il contourne
l'antivirus.
Et les autres solutions.
Et du coup, après, ils sont tombés
sur un iPod
qui a
levé l'alerte et qui a
mis à zéro toute la mission.
Le S.U.M.
Le S.U.M.
C'était un peu...
Parce que ça veut dire que techniquement,
ils étaient au niveau, ils avaient contourné
comme tu dis les entrées.
Simplement,
pour comprendre une entreprise,
une fois qu'on arrive sur
un PC ou un serveur,
on est obligé de se déplacer, on est obligé
de chercher de la donnée, élever ses privilèges
et c'est dans ce déplacement-là
qu'on va attraper
l'attaquant.
Et là, dans ce cas-là, c'était...
Ils étaient proches de la fin, ou pas ?
L'intime.
Là, j'ai pas les détails
jusqu'où ils étaient arrivés.
Je sais qu'ils étaient
assez bien avancés parce qu'ils avaient déjà
contourné énormément de solutions de sécurité.
Et la Blue Team, ils ont eu
vraiment l'alerte de la dernière chance
pour leur dire, attention, ils sont là.
Ils ont pu couper
les accès réseau et
corriger.
Très fort. Il y a une histoire de dingue
où il y a un jour, Microsoft
qui découvre une faille dans leur système
et comme le gars dont on apparaît
a l'heure, au lieu de la corriger,
ils vont eux-mêmes laisser les attaquants
l'exploiter.
C'est sur leur sous-domaine.
Il y a un sous-domaine
qui s'appelle code.microsoft.com
qui était un sous-domaine
associé à Visual Studio Code
qui a été abandonné en
2021.
Ce sous-domaine a été abandonné par Microsoft
et ne pointait vers plus rien.
Des chercheurs
ou des attaquants se rendent compte qu'on pouvait
déployer une ressource
qui serait ensuite référencée par le nom
de domaine.
Ils peuvent déployer un serveur
que eux y contrôlent
et quand on va sur code.microsoft.com
ça redirige vers le serveur
de l'attaquant.
Microsoft, au lieu de corriger ça
et de dire on a une vulnérabilité
on va fermer ce nom de domaine.
Parce que pour comprendre le risque
d'une attaque comme ça,
c'est typiquement que tu cliques sur un domaine
qui a l'air légitime
et il écrit Microsoft.com
tu cliques dessus et tu arrives sur un phishing Microsoft
par exemple. C'est ça, qui est 100% légitime
parce que c'est vraiment le nom
de domaine de Microsoft. Donc ça passe
toutes les mesures de sécurité.
C'est grave en vrai.
Normalement tu corriges instantes quand tu t'appuies
à Microsoft.
Et eux ils font pas ça. Non on va laisser
faire. Mais on va plutôt analyser
qu'est-ce qu'ils font derrière et qu'est-ce qu'ils se passent
une fois que
les gens ont déployé
leur faux serveur.
Et non.
Ils ont vu des choses assez intéressantes. C'est un
domaine qu'ils ont utilisé
pendant pas mal d'années
pour, comme on le disait, la threat intel
donc c'est-à-dire récupérer de l'information
sur les attaques en cours
et même déployer leur propre
réseau derrière fictif
et derrière ils ont vu.
Ils sont vraiment faits à total avec un vrai
réseau
un vrai faux réseau. C'est ça
ce qu'on appelle les tenant Microsoft
qui simule carrément une entreprise
qui aurait des serveurs, des utilisateurs
et c'est un sujet dont ils ont parlé il y a
pas très longtemps donc cette année
à une conférence aux États-Unis, ils ont
un peu expliqué
les travaux de recherche sur lesquels ils travaillaient
et ils déploient
énormément de ces faux réseaux-là
par mois
avec des réseaux jusqu'à 20 000 faux utilisateurs
et à des faux fichiers
de la fausse activité.
Mais l'avantage c'est que vu que c'est Microsoft
ils ont un peu la force de frappe derrière
pour monitorer, pour déployer ça
ce qui est un pensable pour une entreprise
Lambda parce qu'on va pas payer
plein de serveurs
juste pour monitorer des attaques.
Et il paraît qu'ils ont trouvé comme ça des trucs d'outre-dingue
en fait ? Ils trouvent typiquement
ils ont pu suivre
l'évolution des attaques
comme Loq Forchel
qui était une attaque
sur
une librairie de logging
il y a quelques années qui a fait énormément parler
parce que c'était une attaque très simple
à réaliser
c'était vraiment une petite commande.
On voyait sur Minecraft des gens dans le chat
qui se pirataient les uns les autres
et ça avait assez de joueurs
c'était joyeux. C'est ça.
Et ils ont par exemple suivi l'évolution de tout cet attaque
grâce à leur réseau de Onipot
donc typiquement ils ont pu
suivre les nouveaux payloads
qui étaient effectués par les attaquants
donc dès qu'un attaquant trouvait
une nouvelle manière d'exploiter sa lularité
en contournant un peu les mesures de sécurité qui étaient en place
il l'a testé après sur plein de domaines
notamment ça passait parfois par Microsoft
et ils arrivaient à récupérer ça
pour mettre à jour leur défense
et suivre l'évolution
ils se sont même remontés
jusqu'à l'origine
sur GitHub des premières
des premières démos d'exploitation
de l'attaque.
Donc techniquement ils ont détecté
des 0D, en fait avec ça
ou ils ont au moins pu suivre de près.
Oui au moins suivre de près
en l'occurrence c'était
c'était plus suivre l'évolution de la vulnérité
et connaître les variantes
de la vulnérité avant tout le monde
pas forcément la vulnérité en elle-même
au départ
mais ça c'est un truc qu'ils ont pu suivre
sur le long terme.
Et en fait c'est pas la première fois que Microsoft
utilise ce genre de solution un peu non conventionnelle
ils ont
aussi créé énormément de faux contes
enfin des vrais faux contes
du coup pour détecter du fichign.
Oui ça c'est
aussi quelque chose qui font assez récemment
c'est à dire que
au lieu de déployer un serveur
une fausse entreprise comme on a vu avant
ou on est obligé de mettre un serveur un peu intéressant
créer une histoire et attendre que l'attaquant s'y intéresse
et l'attaque, ils se sont dit on va directement
engager
communiquer avec l'attaquant et lui dire vien m'attaquer
je te donne toutes les infos tu peux y aller
Comment ils font ça ?
Ils ont une base énorme
de sites de phishing
grâce aux analyses de mail
qui font pour leurs clients de manière
classique donc dès qu'il y a quelqu'un
qui reporte un site de phishing
le signal ils peuvent le récupérer
l'analyser.
A partir du moment où tu détiens un navigateur
tu as énormément d'infos sur tel site
c'est un site de phishing
il était remonté par des gens
Et une message-ry aussi j'imagine
également oui
Donc avec toute cette base-life
et du coup ils ont créé
des bots qui vont
rentrer des identifiants
sur les pages de phishing
C'est de mon qu'un sens
C'est génial
Et personne qui a développé le truc
C'est remplir automatiquement
des formulaires d'arnaque
La petite mode d'être ton boss je vais pas être viré
je suis un micro-surf depuis deux semaines ça m'a
m'emmerder un petit peu
Ils disent qu'ils arrivent
à rentrer des identifiants
sur 20% des sites de phishing
qui contactent
parce que le reste des sites de phishing
sont protégés par des captchas
des méthodes d'anti-bot
justement
Et sur les 20% restants
ils arrivent à envoyer des faux identifiants
Donc le but c'est d'être à la fin
dans une base de données
qui va tourner
Et de dire on a mis
un email et un mot de passe
qui correspond à une fausse entreprise
qui ont déployé sur Microsoft
Ensuite
l'attaquant récupère tous les mot de passe
qui ont volé et ensuite ils vont essayer de se connecter
sur Microsoft pour le coup
avec des identifiants volés
et les identifiants de Microsoft
les font arriver sur
un tenant fictif de onipot
et sur lequel ils vont être
monitorés après
Rien que avoir la liste
des adresses IP de tous les gens
qui sont connectés à ces comptes là
ça a une valeur de dingue
C'est hyper intéressant pour plein d'entreprises
parce que c'est des choses qui peuvent se revendre
pour intégrer dans des solutions de sécurité
On parlait des antivirus, des firewalls
Les firewalls aussi
on peut intégrer des listes d'IP
en amont
en leur disant
dès que cet IP arrive sur le réseau
ou arrive sur le site web
bloquent la directe ça sert à rien parce qu'on sait que c'est un scanner
on sait que c'est un bot, un attaquant
ou etc
On n'a pas un tableau extrêmement stylé
de ce concept
Mais il y a quand même un truc
qu'il faut aborder
c'est que en rater les meilleurs attaquants
peuvent détecter
des onipotes
C'est faisable
Il y a des techniques
C'est pour ça qu'en déployant
des onipotes de ce type là, vraiment low interaction
ou des choses un peu classiques
c'est très dur de
trouver des attaquants vraiment évolués
ou des malware
qu'on connaît absolument pas
ou même des techniques qu'on connaît pas
dans ce cas là on est obligé de déployer un vrai réseau
qui est vraiment vulnérable
et juste de bien le monitorer
Et en plus de ça il faut rajouter
de la donnée vraiment intéressante
à l'intérieur
voire même simuler de l'activité
simuler du réseau, simuler des choses
Et ça c'est
Plus tu veux être indétectable
plus ça coûte cher
Pourquoi parce qu'il faut faire un vrai réseau ?
Oui exactement
C'est un sujet qui revient un petit peu
d'actualité notamment avec l'IA
dernièrement
parce qu'on peut utiliser l'IA pour générer
des faux fichiers, des noms du titateur
des choses un petit peu rapidement
de manière qui sont totalement plausible
C'est hyper pratique
d'avoir un chat GPT qui génère un docky X
qui correspond
au domaine de l'entreprise qui est de la finance
qui est réaliste
avec des phrases
et injecté en plus après
par derrière
de la donnée précise que nous on voudrait donner
à l'attaquant
Ah oui donc tu peux dire rédige-moi un excel
et dedans glisse un mot de passe
Exactement
Et bam le truc
il prépare le terrain pour la suite
C'est génial
J'imagine l'attaquant qui lit des PDF
C'est un peu...
ça ressemble à du chat GPT
C'est incroyable
C'est un domaine que nous on a rajouté
sur notre solution
qu'on appelle les breadcrumbs
ou les miettes de pain
où on va déployer
des faux fichiers
ou de la fausse donnée
sur le réseau des entreprises
pour diriger l'attaquant vers notre
nipote interne
Par exemple on peut lui donner
un faux script d'administration
qui contiendrait une IP
un utilisateur, un mot de passe
qui est lipée c'est lipée de notre nipote
Donc il va dire super j'ai trouvé des identifiants
en clair sur un partage réseau
Je vais essayer de les essayer
sur le liper en question
Ok, attend j'ai pas bien compris parce que
en quoi
en quoi LIA t'aide à amener
des gens sur un onnipote caché
Parce qu'on peut générer des fichiers
à chaque fois différents
à chaque fois réalistes, crédibles
qui sont
dans le sens
comme dans le compte
le petit poussé
c'est pour
faire des indices crédibles
ce n'est pas trop gros non plus
Parce que une des difficultés du onnipote
sur un réseau interne
c'est de faire en sorte que la personne passe dessus
c'est comme si on met un piège dans une forêt
ça fonctionne mais si on passe pas dessus
on va pas se faire piéger
donc là on va essayer d'augmenter les chances
que l'attaquant passe sur notre piège
en lui donnant des faux indices
en lui disant
bah voir l'IP qui est là bas
tu peux peut-être te connecter parce qu'il y a peut-être une vulnéramité
ou tu as peut-être trouvé un identifiant qui marche
que sur ce serveur
Ah oui ok c'est intéressant
Parce que sur un réseau tu peux avoir potentiellement
des centaines de machines
donc lui par exemple il envoie un phishing
il arrive sur le PC d'un employé
Exactement
Il faut que sur cette machine là
il trouve un petit indice
rapidement qu'il l'emmène au bon endroit
Il faut que surtout ces centaines de machines
ce ne soit pas exactement le même indice
sinon ça commence à être bizarre
Et si par exemple
tu as un seul fichier et ça commence à se savoir
ou même se partager entre des communautés
d'attaquants ou des choses comme ça
bah ton fichier il est cramé
et donc tu vas pas t'amuser à le réécrire à la main
ou tu peux même aller plus loin avec Delia
en disant je veux adapter mon fichier
à l'entreprise en question et à son secteur d'activité
donc j'ai un on-i-pot pour
une entreprise dans
l'industrie
une pour la finance
elles vont pas avoir les mêmes fichiers sur leur réseau
et tu peux adapter les scénarios
un petit peu comme ça pour encore
d'augmenter le réalisme
de tout ce que tu fais
C'est génial
Et toujours sur l'utilisation de LIA
moi il y a un truc que j'avais vu passer
et c'est évident que pour vous
il fallait tester
mais c'est des gens qui demandaient
à une IA de simuler
un ordi justement
de simuler un shell comme on dit
et donc on tape dedans
on fait des vraies commandes
et LIA qui a énormément de données
dans son
dans son dataset
arrive parfaitement à dire que
quand tu fais un ls
il faut inventer quelques fichiers
et à rester assez cohérent
et t'as vraiment l'impression d'utiliser un ordi
il paraît que vous vous avez tenté
dans le
dans le cadre un HONIPOT
On a commencé, on a une version open source
de notre HONIPOT
sur lequel on a rajouté un SSH
qui est généré par IA au final
C'est pas un vrai SSH
C'est un HONIPOT
Oui tu parles un HONIPOT
sauf que le HONIPOT on lui a dit maintenant
tu es un serveur Linux au Ubuntu
et toutes les commandes tu répond à ça
on garde en plus l'historique derrière
donc si tu fais un
tu crées un faux fichier
sur Linux et que tu refais un ls
pour lister les fichiers, ton fichier va apparaître
C'est génial
Il y a la version la plus simple
que tout le monde peut tester, ça va directement sur une chat GPT
on lui dit maintenant t'es un serveur Linux
répond moi qu'avec
des réponses bâches
et on fait un test, on fait un ls, ou un mail
ou des choses comme ça
et ça marche assez bien
ça a assez de limite
Et toi t'as testé avec des pen testers
que tu connais, sans leur dire que c'était un lsm
Est-ce qu'ils ont trouvé ?
Oui ils ont vu un peu
un peu rapidement entre guillemets
parce qu'il y a plein de choses qui ne marchent pas
ou typiquement on peut pas
sur la version qu'on a fait on peut pas encore se balader
dans les fichiers, on peut pas accéder
à des dossiers spécifiques
quand t'enchaînes des commandes sur plusieurs lignes
ça fonctionne pas
donc tout ça ça donne des indices un peu
mais c'est des choses qui peuvent être améliorées
et le mieux ça serait de combiner
en fait, les bonnipotes existants
Low Interaction
qui font déjà toute cette partie là où tu peux te balader
avoir l'impression que tu te balades sur le serveur
mais que tu te balades dans un fichier texte
et de le
augmenter avec BIA
sur certaines réponses
Très intéressant
Je pense un truc c'est que
pour des gens qui sont en train de flipper actuellement
parce qu'ils ont un serveur ou un VPS
on vous mettra dans la description
des liens de bonne pratique
sur les premières choses à faire
quand on reçoit son VPS
parce que
il y a des choses à faire
Si vous voulez pas vous transformer
en une machine Aspam
ça m'est déjà arrivé pour l'anigdote
En gros, j'avais commandé
un serveur
sur OVH
et j'avais un peu oublié
chez plus que je faisais tourner dessus
mais c'était pas un WordPress
mais je l'avais oublié, ça faisait plusieurs mois
et un jour
je reçois un mail de OVH
qui me dit
Excusez-moi, en fait
on a remarqué que vous faisiez des campagnes de spam
Donc
il faudrait arrêter de spammer
En réalité
c'était bien formulé
parce qu'ils savent que ma situation
arrive souvent
et ma situation c'est quoi ?
c'est que mon VPS n'était probablement plus à jour
soit la version de Linux était trop vieille
ou les services ou le WordPress
qui était dessus n'était pas mis à jour
et donc il y a eu
des attaquants qui sont passés par là
et qui ont pris le contrôle de ma machine
et qui se sont mis à envoyer du spam
faire toutes sortes d'horreurs
en vrai c'est flippant
parce que tu te dis
psychologiquement
juste se faire péter
c'est jamais agréable
et surtout tu te dis
comme toi tu l'as expliqué tout à l'heure
genre accéder à des contenus
parfaitement interdits
ou commettre des crimes
ou des trucs comme ça
c'est flippant
je pense que j'ai de quoi approuvé que c'était pas moi
mais c'est quand même très très très
désagréable
donc voilà
je l'ai fermé parce que en fait j'en avais plus besoin
j'ai juste débranché le truc
mais ouais ça m'est vraiment arrivé
à l'époque je savais pas trop
justement que
quand t'es sur le web
t'es sur
au milieu de la place du village en fait
et donc faut faire super gaffe
donc on vous met des trucs en description
pour ceux qui veulent s'amuser
et merci encore
pour toutes tes explications
c'était 30 à 30
vraiment génial
merci à vous
non franchement
tu veux parler de ta boîte
c'est le outil de trapster et ta boîte c'est
ça donc on est une entreprise
de pente test
on fait principalement des tests
de sécurité et des audits
et on a une équipe qui développe
un onipote spécifique pour les réseaux
interne des entreprises
justement pour aider
à sécuriser le réseau
à détecter, à lever des alertes
moi j'avais une question là dessus
est-ce que quand il y a une alerte sur ton
onipote en interne c'est forcément
une attaque ou parfois il y a quand même des faux positifs
parfois tu check juste
c'est peut-être quelqu'un de la boîte
qui est tombé sur le serveur
ça peut arriver
c'est un peu ça les faux positifs
il y en a quasiment pas
par conception
par stratégie
on a très très peu de faux positifs
ça peut arriver, nous on essaye de les minimiser
après on analyse un peu les requêtes
qui sont faites et en levant des alertes
que sur les choses intéressantes
les tentatives de connexion
j'imagine typiquement si tu as
tu vois que si tu as un mot de passe
et que tu
déclenches le truc au bout de 3 ou 4 tentatives
de test sur le mot de passe
a priori ça va filtrer
les trucs non plus
sur l'interne on peut aller plus loin
on peut même dire une tentative
parce que personne est vraiment censé se connecter
il y a potentiellement
des scanners en interne qui tournent dans les entreprises
ils ont des outils pour
scanner de manière automatiquement
trouver des vues l'inviter aussi chez eux
pour corriger
et ça on peut les whitelister également
sur le tour
et c'est plus simple
tu gères ton réseau c'est vrai que tu peux faire des règles
à ces films
salut si vous appréciez Endorscorp vous pouvez nous aider
en mettant 5 étoiles sur Apple podcast
en mettant une idée d'invité que vous aimeriez qu'on reçoive
ça permet de faire remonter Endorscorp
c'est l'une fusée et on reçoit pour ça l'ouvna
bienvenue merci, merci pour l'invitation
on est très content de t'avoir, est-ce que c'est ta première fois sur Twitter ?
oui
alors pour toi tu as fait du toll, c'est pas non plus ton premier
mais pas sur Switch
c'est jamais diffusé sur Twitter
ça peut être bizarre
oui peut être
souvent c'est sur Youtube après mais c'est vrai qu'ils le font pas en live
en général c'est juste un record
et après c'est sur Youtube
déjà il y a pas de sur des questions mais tu prévois des questions
c'est du chat et tout
je dis ça mais on est en live
on prend aucune question
j'ai le chat sous les yeux
c'est bien
et pour expliquer
tu es dans l'équipe Science
de Huggingface
qui est une boîte
qu'on ne présente quasi plus
on va quand même le présenter
mais on avait déjà
reçu au moins
c'est une ou deux personnes
moi je dirais une mais j'ai peur de faire une boulette
c'est une ouais
c'est sûr on a reçu Arthur de Huggingface
mais j'ai reçu tout le tout
c'est ça
donc non on est ravis
de t'avoir ça va être trop intéressant
et surtout que
ta spécialité entre guillemets
va beaucoup nous aider
aujourd'hui on va en trop parler
de l'entraînement des IA
et un petit peu des craintes qui peut y avoir
autour des données de la manière dont évolue internet
et comment ça peut impacter justement l'entraînement
ton expertise va beaucoup nous aider
déjà avant de rentrer
dans ce sujet-là est-ce que tu peux nous présenter
ce que tu fais de base chez Huggingface
et voilà
quoi ressemble ta journée
dis nous tout
moi je suis chercheuse dans l'équipe science de Huggingface
et je travaille sur l'entraînement des modèles
notamment des petits modèles qui peuvent tourner
au local par exemple sur téléphone ou sur macbook
et du coup je travaille
beaucoup aussi sur la partie traitement de données
donc on va parler de ça après
et aussi sur la partie training
et du coup ma journée
souvent je regarde sur Twitter s'il y a de nouveaux papiers
donc tous les jours il y a de la nouveauté
c'est plus possible de tous les lire
exactement
c'est le gars de
c'est Martin non
c'est Thomas Chialume qui nous a dit ça
de Facebook que c'est plus possible de tout suivre
c'est vraiment difficile de tout suivre
il faut savoir un peu filtrer
et du coup après je fais un peu de code
j'essaie d'en lancer des jobs
sur notre cluster pour entraîner les modèles
et c'est un peu ça
les classes TAR c'est un peu
les GPU sur lesquelles on entraîne les modèles
lancer des jobs
c'est lancer des entraînements de modèles
donc souvent j'en fais ça
il faut se battre un peu
pour avoir accès au cluster
de calcul de
ouais donc heureusement à Guy Fait
je pense qu'on est quand même une petite équipe
et on a assez de ressources pour les expériences qu'on lance
donc parfois ça peut arriver à d'avoir un peu
quelques petits problèmes
mais on gêne assez résolu assez facilement
moi j'ai une question avant qu'on se lance
dans le vide du sujet mais
je me suis toujours demandé
une boîte comme Gameface donc
qui est un petit peu pour que vous expliquez aux gens
le GitHub
ce que GitHub et au code
vous êtes modèles de DIA
ce que GitHub et au code
donc la place du village
l'endroit où on
on stock, on fait évoluer
on publie les modèles de DIA
pourquoi vous-même
vous faites vos propres
vos propres modèles
pourquoi ?
c'est une question qui revient souvent
je crois que à Gameface c'est surtout connu pour la plateforme
pour partager les modèles et les dataset
et surtout l'équipe Open Source
on a délibéré contre Trans en Mars
on a aussi une équipe Science
donc c'est une équipe qui fait des projets un peu plus sur recherche
et en fait le but de cette équipe
c'est vraiment d'épauler la communauté
dans la partie entrelure des modèles
donc on essaie notamment de voir où il y a un peu un vide
dans la recherche et essayer de combler ce vide
par exemple quand on parle de préparation de données
aujourd'hui il y a beaucoup de modèles qui sont publics
mais il y a très peu de dataset
même les détails sur ces dataset ne sont pas publics
et du coup nous on essaie de faire un peu
de la recherche, de lancer nos propres expériences
pour pouvoir un peu partager
les connaissances autour du traitement des données
et donc ça c'est pour le projet
c'est pédagogique en fait
du coup on sort quand même
des releases par exemple
on a sorti le dataset FindWeb
c'est le plus gros dataset pour entraîner des élèves
mais c'est pas juste à quantité
il y a vraiment de très bonne qualité
pareil on entraîne des petits modèles comme ça les gens
ils auront plus d'options pour
développer ces modèles et les utiliser
donc en général on essaie de reproduire
ce que les laboratoires font
mais plutôt en closed source
ce n'est pas des trucs qui sont publics
on essaie de faire cette recherche là
et partager ça avec la communauté
donc on est vraiment très transparent
sur toute la pipeline de développer ces modèles
et comme ça ça va aider la communauté
pour développer d'autres choses au-dessus
bon et bien justement
il y a plein de trucs que tu as évoqué là
on va tout détailler
expliquer petit à petit
pour que tout le monde
puisse suivre
et surtout on va aborder
ce sujet qui nous intéresse aujourd'hui
qui est le suivant
on sait qu'il y a
le nerf de la guerre aujourd'hui qui se rend les modèles
particulièrement pertinents
c'est leur jeu de données
le fait qu'ils soient de qualité
et qu'ils soient gigantesques tout simplement
et dans le même temps
depuis 2022 on voit de plus en plus
de contenus générés sur internet
donc qui sont faits par des IA
des articles de presse
des blogs, des images générées, des TikToks générés
si vous avez forcément vu ça sur
un short sur Youtube
voilà en deux ans
on a quand même vu une évolution
pas encore apocalyptique évidemment
mais on commence à voir
à se dessiner un futur
ou une partie d'internet
généré et ça s'appose pas mal de questions
ça interpelle beaucoup de gens
sur le fait que
ces dataset vont être un peu
pourris, est-ce que les IA du futur
il y a l'expression garbage in, garbage out
est-ce que les IA
à force d'invaler
ce qu'elles produisent
vont finir par devenir complètement stupides
est-ce qu'on a comme ça un temps une sorte de plafond
justement
c'est notre sujet du jour
et je te propose qu'on explique un petit peu d'abord
d'où ça part
c'est quoi
ce qui se cache en fait derrière l'entraînement de ces modèles
et petit à petit qu'est-ce qui est légitime
comme crainte versus qu'est-ce qui est un peu fantasmé
éventuellement
donc l'UBNA, la raison pour laquelle on t'invite
justement c'est que tu es spécialisé
exactement dans l'entraînement de modèles
et la construction de dataset
est-ce que
tu peux nous expliquer déjà
pour nous aider à nous faire notre avis
tu peux nous expliquer
depuis combien de temps tu travailles là-dedans
et si ça fait longtemps que cette inquiétude
tu la vois passer
tu vois c'est quoi ton point de vue
oui donc moi j'ai rejoint à Gimface il y a à peu près 3 ans
et je travaillais sur mon train de mot
des modèles depuis le début
donc c'était plus des modèles de générations de code
et maintenant c'est des modèles un peu génériques
et je crois que cette crainte
on commence à en parler surtout cette année
parce qu'il y a beaucoup de labos qui utilisent
des données synthétiques pour entraîner leur modèle
et on commence à voir beaucoup de contenus
généré par l'IA sur le moteur de recherche
et un peu partout
je crois par exemple j'avais lu que OpenAir
ils ont plus que 300 utilisateurs de ChargerPT
par semaine
et par exemple sur Gimface on a plus qu'un million de modèles
donc c'est énorme quand même
et on commence à se rendre compte
de l'amplitude de ça maintenant
oui et que ça commence à avoir un impact sur le web
là où avant c'était éventuellement pas encore visible
pour reprendre du début
la question centrale
c'est celle de la qualité des données d'entraînement
puisque
il paraît que les modèles qu'on a aujourd'hui
qui sont super forts
donc les GPT4, les Claude etc
en fait ils sont littéralement entraînés sur tout internet
c'est ça ?
oui exactement
en fait on veut que ces modèles servent un peu tout
et sur internet on a tout
donc c'est vraiment la source principale pour entraîner ces modèles
on peut aussi avoir des livres, des PDF
du code mais le web c'est vraiment la source majoriteur
la question va être mais comment c'est possible ?
en gros
comment tu donnes genre internet
en entier, à entraîner ?
déjà il faut télécharger internet
et tu fais cliquer en githrés sous ?
exactement internet c'est énorme
en gros par exemple nous les données
qu'on crée du coup c'est à partir d'internet
donc normalement on peut scroll ça
ce qu'on appelle du scroll in
c'est le fait de télécharger c'est page web
donc on peut scroll ça à partir de domaines
que nous on connaît mais c'est pas vraiment très skillable
donc il y a des, par exemple
une plateforme qui s'appelle camelcroll
donc eux ils font justement du scroll in
depuis je crois 2007
en fait tous les mois ils sortent
en fait des versions du web qui ont scroll
donc en fait c'est des dons qui ont téléchargé
ça va être du html
avec ce qu'il y a dans les pages web dedans
donc concrètement eux
ce qu'ils ont de leur côté c'est les petits robots
qui scrollent les sites web
exactement du coup il y a à peu près
quasiment vraiment très grande pourcent d'internet
donc camelcroll
et ça représente
quel taille ?
en gigas ou en pages ?
il y a énormément par exemple
il sort tous les mois une version du web
donc il y a vraiment plusieurs versions
je crois un mois c'est entre 200 terabytes
400 terabytes de texte non compressé
c'est gigantesque
et en même temps
je sais pas comment dire mais
je arrive à me figurer
tu vois j'ai un discoudure de terra
tu peux maintenant
tu en achètes 50 ?
ouais tu as internet quoi
ça c'est un mois
non non en fait on entraîne je crois
sur peut-être 100 mois ou un truc comme ça
si on veut pas l'adapté
exactement tous les mois c'est entre 200 terabytes
et 400 terabytes
du coup il va falloir 100 discoudures
vous prenez 100 mois
oui en fait parce que
le contenu il ne est pas joué
ça fait combien ?
100 mois
400 terabytes
et donc
Common Crawl
c'est les seuls qui font ça
enfin c'est
du coup eux ils le font vraiment
c'est une boîte à but non lucratif
et du coup la plupart
des gens ils passent par Common Crawl
sinon par exemple OpenAI et Tropique
eux ils font leur propre crawl in
parce qu'ils ont assez de ressources pour faire ça
donc pour eux c'est eux Common Crawl
ils crawlent les sites web eux-mêmes
mais c'est très dur du coup pour nous par exemple
on n'est pas sur Common Crawl pour d'autres boîtes
comme l'NAI et d'autres on passe par ça
ok donc en fait
tu disais qu'ils ont peut-être
une couverture un peu de 90%
il manque quand même quelques...
mais pour les plus compétitifs
il faut développer son propre système
pour essayer d'être encore meilleur c'est ça ?
c'est ça parce qu'ils ont quand même
des ressources je crois peut-être un peu limitées
donc parfois c'est possible qu'il y ait des domaines
qui ne sont pas très bien couverts
donc si on veut être sûr de vraiment tout couvrir
c'est toujours mieux si on fait notre propre crawl in
ok donc
de ce que j'ai compris
toutes ces données, ces terrains et ces terrains
d'internet vont derrière servir
à l'entraînement
mais c'est pas non plus 100%
de ce que j'ai compris c'est 90%
non pas du tout on enlève 90%
oui alors ça on va y venir après
on va y venir sur le filtrage
mais juste en termes de source pure de données
donc il y a 90%
si ça va être internet mais c'est pas tout
ça peut être moins que 90%
parce qu'on a aussi du code
genre vraiment beaucoup de code
alors là on passe par GitHub
on télécharge les ripos de GitHub
ça peut aussi être d'autres précisions de ressources
donc ça va peut-être 5% peut-être des livres
des papiers sur archive
c'est aussi du web mais d'autres trucs qui sont un peu plus
spécialisés
donc t'as des bases de données qui ne sont pas vraiment internet
genre tous les livres
par exemple
mais le web ça reste vraiment comme t'as dit
peut-être 80%
ok donc c'est énorme
et ça ça change
c'est un truc qui est figé
ou en moins internet on sait que ça
évolue chaque mois
mais on scanne des livres
par exemple pour entraîner change-gpt
c'est un truc qui a évolué
oui je crois
il y a des gens qui font ça
mais en général la qualité
des entraînements sur le web
c'est mieux que l'entraînement sur les livres
donc on peut les ajouter
parce qu'en fait c'est vraiment énorme c'est très divers
si tu entrains juste sur des livres
le modèle il n'aura pas toutes les capacités qu'on veut
et du coup on peut quand même ajouter des livres
mais par exemple nous
dans notre éni il n'y a pas de livres
ce peut qu'il y a des livres par accident
sur le web
mais on n'a pas vraiment scanné des livres
on aurait mis ça dans le training
ok intéressant
et moi il y a un truc qui m'interpelle
c'est que si jamais
du coup tout le monde a accès à ces données
que c'est des organismes non lucratifs etc
ben on comprend pas trop
pourquoi t'as des modèles
qui sont meilleurs que d'autres
si tout le monde a accès à Common Crawl
ça vient d'où
tu vois
alors en fait accéder aux données sur Common Crawl
c'est que l'étape 1
il reste beaucoup d'étapes pour avoir un bon data set
et c'est ça qui est le plus dur
quand t'as dit tout le monde a accès
c'est pas un data set du coup
si tu regardes des données dans Common Crawl
c'est du HTML
dedans il y a du texte
il faut extraire ce texte et il faut après le traiter
il y a vraiment beaucoup d'étapes qui font qu'on a un data set
qui est de bonne qualité
alors du coup
c'est là que se fait la différence
oui exactement
et comment c'est quoi les étapes
si on peut détailler
la première étape
ça va être de récupérer les données de Common Crawl
et après comme j'ai dit
ça va être plutôt du HTML
il faut extraire le texte qui est dedans
et du coup on appelle ça l'extraction de texte
il y a plusieurs libraires pour le faire
parce qu'en fait imaginons une page web
en général il n'y a pas que du texte
il y aura des barres latérales
avec des publicités
il y aura des bannières
mais on ne veut pas forcément ça
nous on ne veut que le texte qui est à l'intérieur
et on va entraîner le modèle sur ça
et du coup il faut vraiment traiter ce texte
pour récupérer que les choses qui nous intéressent
donc ça c'est la première étape c'est l'extraction de texte
et du coup il faut faire ça sur tous les terribles
et des données donc il faut quand même beaucoup de ressources
pour faire ça
après qu'on a extrait le texte
on peut faire des traitements qui sont un peu basiques
par exemple si on veut entraîner des modèles que sur de l'anglais
il faut détecter les données qui sont en anglais
et filtrer les données qui ne le sont pas
et après
j'ai dit qu'il y a des données tous les mois
donc il y aura sûrement beaucoup de doublants
par exemple il y a des pages
il y a des miroirs et des trucs qui sont vraiment hyper répétés
on n'a pas besoin d'entraîner les modèles sur ça
il y a eu des recherches qui montrent qu'entraîner
sur moins de doublants ça aide
du coup il faut faire ce qu'on appelle de la déduplication
donc il faut aussi lancer tout ça
sur tous ces terribles de données
donc il y a très peu de gens qui peuvent faire ça vraiment à cette échelle
et après avoir fait la déduplication
c'est prendre 400 terra par exemple sur le dernier mois
et elle essaie de trouver toutes les duplications
c'est des monts
exactement et parfois en fait il faut regarder les doublants
dans tous les mois
entre tous les 400 terra que t'as
donc c'est énorme
et il faut pas le faire de façon naïve
il faut vraiment trouver le bon algorithme pour faire la déduplication
et c'est là où on peut faire un peu de la recherche
c'est là où on peut avoir une différence entre les qualités des dataset
et après à l'étape la plus importante c'est vraiment le traitement
pour un peu filtrer les données qui sont de mauvaise qualité
et du coup pour faire ça
on peut essayer de partir de l'intuition
et se dire pas dis donc
moi je pense que les pages qui viennent de ce domaine
j'ai besoin que de ça
exemple le traitement mais dans ce jeu de données
il y a tout le web et tout n'est pas qualitatif
donc par exemple tu as des pubs
du marketing, tu as du bâtissette du porno
une bonne partie d'internet
comment tu filtres ça ?
oui du coup c'est une bonne question
juste pour donner un ordre de grandeur
le dataset final par exemple qu'on a obtenu
dans fine web c'était je crois 10%
ou moins de ce qu'on avait au départ
comme un crawl
donc il y a une très grande partie qui est de très mauvaise qualité
il faut pas entremer le modèle sur ça
ou alors ça fait un fort chaine bizarre
peut-être
même pas, peut-être qui gêne
qui gêne avec du texte qui est pas correct
et ça va être vraiment un gaspillage
de ressources
mais du coup pour la partie filtering
traitement de données
on peut commencer par des filtres un peu basiques
chercher par exemple les pages
où il y a beaucoup de répétitions
par exemple pour détecter les pages
où il y a beaucoup de mots clés
pour manipuler les moteurs de recherche
donc on a des filtres pour ça
ou du coup la répétition de les pages
on peut aussi avoir d'autres filtres
par exemple on cherche les pages
où il y a les phrases et ce termine pas par un point de punctuation
donc ça par exemple ça peut être un filtre
mais après on peut avoir beaucoup d'idées
de filtres que pour nous
ils ont du sens, mon intuition humaine me dit
que ça c'est un bon filtre
il faut pas que j'entraîne mon modèle sur ça
mais après c'est pas toujours le cas
du coup on a appris ça un peu
par l'expérience
mais il faut toujours entraîner un modèle
sur le dataset qu'on filtre pour savoir
si c'est un bon dataset ou pas
et du coup en pratique, comment construire les dataset
on a des idées de méthodes de traitement
on les applique et après on entraîne
des petits modèles et on voit si
en fait utiliser cette méthode est mieux que ne pas l'utiliser
comme ça on est sûr
qu'en fait la intuition elle se traduit
pendant le entraînement
donc par exemple, la ton idée
d'enlever tout ce qui finit pas par un point
pour par exemple enlever
les postes reddit bizarres
et bien, tout ce que tu fais
c'est que tu l'appliques sur ton gigantesque jeûte de données
et au lieu d'entraîner tout de suite
ton gros modèle qui va te coûter des millions
tu le mets sur un petit modèle
et tu peux le comparer et c'est un signal
intéressant en fait
par exemple ce filtre là on l'utilise pas
parce que ça on l'aie beaucoup donné
c'est juste ma pratique
on parlait tout à l'heure avant
moi je travaillais sur les modèles de génération de code
donc on entraîne sur du code qui est sur Itab
donc un filtre naturel c'est de utiliser
les étoiles des
ripos qui sont sur Itab
parce que si il y a un ripo qui a beaucoup d'étoiles
c'est peut-être de bonne qualité
par exemple transformant on a beaucoup d'étoiles
mais du coup la qualité pour le code est beaucoup
plus élevée que d'autres ripos
oui c'est ça, on dirait que c'est une bonne idée
exactement et du coup on a testé ça
c'est pas du tout une bonne idée
c'était le pire modèle qu'on a entraîné
on l'a beaucoup donné
que les données que tu as au final
elles sont pas du tout diverses
et tu n'arrives pas à entraîner un bon modèle dessus
donc c'est-à-dire que tous les projets sur Itab
qui sont les plus populaires
c'est pas forcément ça qui est au meilleur code
exactement, juste parce qu'il y a vraiment
très peu de ripos qui ont beaucoup d'étoiles
je crois que pour nous le seuil c'était 5 étoiles
et même avec ça on n'a pas eu
beaucoup de données au final donc c'était pas du tout
un bon filtre
et donc pour donner un peu de... ça c'est des exemples dans le code
mais un truc qui parlera tout le monde
c'est quoi des bonnes données
qui est genre qualitative
et un exemple de mauvaise données
que tu veux pas ?
oui du coup peut-être exemple de mauvaise données
parce qu'il y en a beaucoup
par exemple du coup les pages
il y a juste beaucoup de mots clés un peu pour manipuler le moteur de recherche
les trucs où il y a
c'est juste beaucoup de publicités
je pense que c'est bien d'avoir des publicités
dont tu es donné
mais peut-être pas beaucoup
et il y a beaucoup sur internet donc si on trouve des méthodes
pour diminuer leur quantité ça va être cool
l'autre jour
j'ai vu dans une présentation
une rip sa semaine dernière ils ont montré un exemple
sur Reddit il y a un sabre-reddit qui s'appelle
microwave gang du coup il y a des gens qui viennent
et ils postent la lettre M
plusieurs fois pour un peu simuler le son
d'un micro-hand
du coup les gens ils répondent beep
pour dire que le micro-hand a fini
et il y a beaucoup de postes
de ce type
et du coup je crois qu'il y avait quelqu'un de l'NR
ils ont entraîné un modèle et certainement
ils généraient beaucoup de M
ils savaient pas pourquoi
et ils ont trouvé que ça vient de ce sabre-reddit
c'est génial donc si ça se trouve sur certains modèles
tu mets le mh mh
ça va continuer beep
ça veut dire que tu peux faire un sabre-reddit qui va baite des IA
mais oui
ça existe ça s'appelle microwave gang
il y a beaucoup de trucs comme ça
du coup ça c'est pour mauvaises qualités
pour bonne qualité
du coup c'est dur de dire parce que c'est toujours bien
d'avoir des données qui sont vraiment très diverses
mais peut-être des trucs qui ressemblent
un peu à des manuals scolaires
ou des textbooks genre par exemple une page
de Stanford qui explique ce que l'algebra est l'inéaire
ça c'est de très bonne qualité
des articles
par exemple sur des blog post controls
des trucs comme ça ça peut être très bien
et du coup c'est quand on peut les... avec le temps
c'est quand on peut les...
la source secrète qui fait
qu'on arrive à
bien filtrer des données de qualité parce que
j'imagine c'est là que
il y a la valeur, enfin que tout le monde se bat
on voit
la valeur
marchande qui a aussi derrière
les IA, les modèles IA
ça doit y avoir un peu de secret
derrière les techniques
ouais c'est ça vraiment l'avantage concurrentiel
de la plupart des boîtes c'est pour ça qu'il partage quasi
jamais les détails
je pense que la source secrète c'est vraiment
de faire beaucoup d'expériences pour trouver
quelle méthode des traitements marchent bien
donc par exemple pour notre data set on a vraiment fait
je crois on a entraîné 200 modèles
petits pour tester les méthodes de traitement
et quand on fait ça de façon
un peu expérimentale
on arrive à avoir un data set qui marche bien
après on peut essayer d'innover un peu
et d'avoir des méthodes de traitement par exemple
qui utilisent d'autres élèves
donc par exemple on a testé ça, ça marche bien
donc on peut trouver des idées mais il faut toujours
les tester avec des petits modèles
pour savoir si ça marchera ou pas
donc par exemple au lieu d'utiliser
une règle un peu
automatique pour filtrer
tu vas donner une page à un autre modèle
de langage et lui dire
dis moi si elle est qualitative ou pas
ouais du coup
en pratique ce qu'on a fait c'est que
l'intuition c'est que quand on essaie d'enseigner
par exemple à l'école ce qu'on montre aux étudiants
c'est plutôt des manues scolaires qui sont très bien écrit
il y a beaucoup d'informations et c'est correct
et du coup on se disait
au lieu d'entraîner sur du web, oui un peu tout
si on crée un data set qui est vraiment très propre
qui est assez divers et ça ressemble
à ses manues scolaires, ce que ça peut être intéressant
et du coup c'est quelque chose que Microsoft
a fait avec leur modèle FI, je sais pas si vous avez vu
ils avaient un pay-part qui s'appelait
txbooks are all you need et du coup en gros
ils ont crée des données
qui ressemblent à des manues scolaires
synthétiques générées par d'autres modèles
ils ont entraîné sur ça et du coup
nous ce qu'on a fait pour vraiment scale
on a pris des pages web et on a demandé
un LLM de donner la valeur éducative
de ces pages web de 0 à 5
et après on a gardé que les données
qui avaient un score supérieur à 3
et ça marche super bien
ah il fait intéressant, du coup le point de départ
c'est un papier qui dit que en gros si tu enlèves
tout le reste d'internet et que tu gardes que les trucs
qui ressemblent à des manues scolaires
des yaks continuent de bien marcher
oui du coup ça c'est plus une analogie
parce que ce qu'on garde c'est pas des trucs
qui sont des manues scolaires mais des trucs qui ont
une valeur éducative par exemple
il parle d'un sujet qui peut être intéressant à l'école
ou ils sont bien écrits et du coup
tu peux choisir ton seuil de traitement
en fonction de ce que tu veux garder par exemple
si tu utilises le seuil 5 pas tu auras que des manues scolaires
si tu utilises un seuil qui est un peu moins élevé
tu auras des données qui sont assez diverses
il y a un truc aussi qui
il a toujours un peu intrayé mais moi je sais pas
à quel point c'est la spéculation et tu peux nous éclairer
mais c'est qu'on a pas mal parlé
de l'internet textuel
mais il y a pas mal d'histoires
sur le fait que les tout meilleurs modèles
la raison, une des raisons pour laquelle ils sont
aussi bons c'est que
ils ont pas que du texte
mais potentiellement ils vont se baser
sur des bases de vidéos
donc peut-être des films
ou Youtube ou des choses comme ça
à quel point c'est une réalité ça
du coup je crois
la motivation derrière ça c'est que
les vidéos sont vraiment très riches
genre juste une seconde
il y a beaucoup d'informations
concernant la physique, concernant le tout
donc le fait d'entraîner sur ça
ça donne nos modèles plus de capacité en termes
de raisonnement qui vont probablement aussi aider
pour la partie texte
donc je pense pas qu'il y a eu vraiment
des comparaisons entre
j'ai dit des modèles en train de faire du texte
de la vision parce que c'est quand même très différent
non mais c'est pour moi ce que je restais
sur la question de la transcription pure
je parlais même pas encore de l'image
réelle mais aujourd'hui par exemple
si moi je veux créer un modèle
qui a des connaissances
qui...
comment dire
il y a plein de connaissances qui ne sont pas sur internet
mais qui existent par exemple des podcasts
dans des conférences sur Youtube
aujourd'hui
c'est donné là
comment on fait pour les avoir quoi
ouais ça c'est une bonne question
je pense jusqu'à maintenant
il y a pas vraiment beaucoup de gens qui ajoutent
des podcasts mais ça peut être intéressant
peut-être qu'au Pnei ils font ça
et ça fait partie de leur secret sens
mais je pense pour l'instant
c'est majoritairement du web et ça aide
peut-être si tu veux un modèle qui est vraiment spécialisé
sur un domaine
où on n'en parle que dans les podcasts
là ça peut être vraiment intéressant d'ajouter ces données
mais si c'est vraiment des informations
qui sont déjà sur le web je pense qu'il y a
beaucoup de podcasts
je crois qu'on se sous-estime parfois
ce qu'il y a sur le web
en tout cas il y a peu de chance qu'ils en parlent publiquement
en Pnei parce qu'ils sont
déjà un peu dans la sauce
avec les ayants droits
oui ils ont un procès avec Google pour Youtube
je crois
je sais pas quel est le verre
ou un procès ou en tout cas ça se bat
voilà, quelle forme mais ça se bat
avec tous les ayants droits dans tous les cas
il y a des vraies questions autour de ça mais qui sont pas simple
il paraît que
il y a aussi
une gestion très subtile des proportions
donc on a beaucoup vu ce qui permettait de filtrer
et on prend un peu le temps justement
de bien comprendre toute cette phase d'entraînement
parce que vous allez voir derrière
sur les questions que ça pose
sur l'évolution du web et comment ces
jeux de données peuvent être corrompus
ça a vraiment son importance
et il n'y a pas que le filtrage
il y a aussi la proportion
la répartition entre différentes langues par exemple
c'est ça qui va jouer
du coup entre différentes langues mais aussi entre les sources
parce que par exemple comme j'avais dit on peut avoir
des données du web mais aussi des données du code
peut-être des données de maths
donc il faut savoir un peu quelle proportion
on donnait pour chaque dataset
et pour se faire voir
il faut aussi faire beaucoup d'expériences et entraîner
des petits modèles
parfois on peut entraîner des petits modèles
mais parfois il faut vraiment entraîner des modèles qui sont plus grands
parce que ça n'interpore pas toujours
donc ça peut être aussi un peu tricky
mais oui les proportions c'est aussi important
parce que par exemple moi je veux un modèle qui est très bon
en anglais mais aussi bon en code
et si j'augmente la proportion de code
il va forcément être mieux en code mais je veux pas qu'il soit moins bien en anglais
donc il faut vraiment trouver un compromis
donc en fait c'est un peu comme si t'étais
en train de construire une classe sur un jeu vidéo
et tu dois augmenter un peu
les capacités mais elles sont toutes liées en fait
c'est ça ? oui exactement
est-ce qu'il y a des trucs qui sont un peu contre-intuitifs là-dessus
parce que là de ce que tu dis, c'est que l'exemple que tu donnes
tu mets plus d'anglais, il est mieux en anglais
tu mets plus de code, il est mieux en code
est-ce que c'est vraiment simple
ou il y a des choses qui sont un peu contre-intuitifs ?
oui c'est pas très simple
par exemple si on met pas du tout le code
comparé si on met par exemple 20% de code
le modèle sera mieux en anglais
et en code si j'ajoute ce 20% de code
ça apparemment ça aide pour le raisonnement
oui donc l'existence de données
d'organisation aide à l'anglais
oui
parce que pour l'anglais on teste plein de choses
on teste les connaissances
on teste le raisonnement
et du coup par exemple pour le raisonnement
le fait d'avoir du code ça aide
même si tu vas jamais programmer quoi
oui même si tu fais jamais le modèle c'est bien de mettre du code
c'est marrant
et sur les langues
au début on avait des modèles qui parlaient quasiment qu'en anglais
derrière on a vu
on attendait avec impatience ceux qui parlaient bien français
j'imagine que toutes les langues attendent
toujours les améliorations
c'est pareil est-ce que du coup
mettre plus d'une langue ça détère les autres
ça la guerre quoi
c'est un peu comme le code
déjà ça dépend de la taille des modèles
les modèles qui sont plus petits en général ils ont moins de capacité
donc ça va être un peu dur
de plusieurs langues
mais en général il y a de transferts
de connaissances entre les langues
donc ça aide d'avoir plusieurs langues
comme ça le modèle il peut voir le même concept
en plusieurs langues ça peut aider pour le raisonnement
donc c'est bien d'avoir plusieurs langues
mais il y a quand même une limite
des langues que tu peux avoir
et en général les gens ils entraînent
pas en pour avoir un modèle qui est meilleur en anglais
la proportion d'anglais elle va être plus élevée
que pour les autres langues
et après j'imagine que dans les données en fait
c'est le cas il y a déjà un nombre d'anglais
il y a pas de chemin en fait
ok hyper intéressant
et donc en fait
c'est pas juste une histoire de faire plaisir
à telle ou telle langue
on a tout s'intéressé à ce qu'il y a un max
de données de langues variées
ouais exactement de données de bonne qualité
du coup
ok il paraît qu'il y a
aussi un ingrédient secret
c'est d'en fait
d'introduire les données de bonne qualité
vers la fin de l'entraînement
ça paraît
ça paraît très étrange
ouais ça c'est quelque chose de très nouveau
et ouais c'est très étrange
parce que dans les langues quand on entraîne ces modèles
en fait c'était un réseau de neurones
et il se déplace un peu dans un espace
et vers la fin il se déplace pas beaucoup
donc c'est un peu contradictif
il faut l'en repenser qu'il faut les attribuer au départ
mais ouais
maintenant en fait on garde les données de meilleure qualité
un peu vers la fin et ça donne un peu
un boost qui est supérieur à les introduire
avant aussi parce qu'on générale ces données
et elles sont très petites
donc si on les introduit en milieu et il faut vraiment
entraîner le modèle pendant longtemps on va faire beaucoup
de répétition sur ces données donc parfois c'est mieux
de les garder vers la fin et faire un peu
de répétition sur ça
bon on a un peu mieux compris
comment se passait cet entrainement
mais
maintenant il y a un problème
problème que les gens réalisent pas forcément
c'est qu'il y a une pénurie en fait
il n'y a plus de données là
tu mentionnais les nouvelles données du web
chaque mois
mais proportionnellement
de ce que j'ai compris
on a bien
essoré
ce qui était disponible actuellement c'est ça
du coup je pense que c'est peut-être le cas
pour des modèles comme GPTK
TREKLOD
mais pour par exemple les modèles
en open source je pense qu'on a
quand même
quelques données à voir il faut quand même lancer
des expériences et c'est d'avoir de données
de meilleure qualité pour pouvoir se rattraper
justement au modèle comme GPTK
mais c'est vrai qu'il n'y aura pas une infinité
de données à un certain moment
juste entre les deux modèles qui sont plus grands
sur plus de données ça ne va pas être faisable
donc ce qu'il faut faire maintenant
c'est trouver des méthodes pour mieux traiter
ces données comme ça même si la qualité
est plus faible ou est constante
ils vont nous donner des parfes qui sont plus supérieures
ça c'est intéressant parce que
tout le monde regarde très près
évidemment les meilleurs modèles
les flagships qui
qui repoussent de plus en plus
les possibilités
et on sait qu'il y a des règles très simples
c'est plus de tas de données
et plus de
performances de compiutes
qui allouent à l'entraînement
meilleur sera ton modèle à la fin
c'est une simplification mais en gros
c'est ça
donc le fait qu'il y ait une pénurie
enfin qu'on soit un peu arrivé
entre guillemets
à optimiser
quasiment parfaitement toutes les données qu'on a
côté je parle bien
de GPTK et des très gros
c'est quand même une vraie question
c'est quoi l'après du coup
qu'est-ce qui est possible maintenant ?
du coup il faut entraîner des modèles de façon plus efficace
donc ça peut être la partie traitement de données
et c'est de les traiter de façon plus efficace
comme ça même si c'est la quantité constante
j'aurais de meilleurs perfs
il y a aussi des méthodes comme
les gens parlent beaucoup de ça mais
au un du coup
au lieu de se focaliser sur le training
essayer de se focaliser plus sur l'inférence
donc donner un modèle plus de temps pour réfléchir
utiliser des méthodes qui font que leurs générations
elles seront en meilleure par rapport à s'ils font pas ça
c'est un peu de la triche du coup entre guillemets
c'est à dire que c'est pas la triche mais
c'est vrai que c'est pas aussi évident
que générer la réponse du premier coup
mais si en fait on arrive à réduire le coût d'inférence
on voit pas sans sentir cette latence
et du coup ça va être comme si c'était la génération qu'on a eu
du premier coup
on peut aussi essayer d'explorer d'autres architectures
qui sont peut-être plus efficaces donc
il y a des questions un peu ouvertes sur What's Next
et il y a un dernier truc qui est quand même
vachement intéressant et intrigant
c'est le concept de
de générer des données synthétiques
qu'est-ce que c'est que cette histoire ?
oui alors peut-être les données synthétiques
pour expliquer aux gens ce sont les données qui sont générées
par des IA
donc ça peut être par exemple
TjPT ou Gemini mais aussi des modèles open
comme coin ou l'amant
ça peut être du texte ou des images
en gros c'est tout ce qui est pas généré par des humains mais par des IA
et maintenant en fait
on entraîne les modèles sur ces données là
qui sont générées par d'autres IA
donc ça paraît de basé
il y a un peu de bros là
on voit la boucle
mais pour commencer par le cas simple
moi celui que je connais c'est
typiquement entraîner un petit modèle
avec l'aide d'un grand
ça se fait beaucoup
ça s'appelle de la distillation
on essaie de distiller
les connaissances d'un modèle qui est plus grand
vers un modèle qui est plus petit
donc on utilise les générations de ce modèle
pour entraîner un modèle qui est plus petit
donc on fait ça pour la partie pre-training
qui est la partie où on entraît ces modèles sur beaucoup de données
mais aussi pour la partie post-training
et la partie où on construit des chessbots
on leur montre comment répondre aux instructions
et tout ça
et donc là typiquement quand tu dis générer des données
pour les entraîner
ça ressemble à quoi très concrètement
on leur dit écrire des trucs intéressants
comment ça va faire pour que tu fais ?
oui c'est pas évident
c'est beaucoup de ce qu'on appelle prendre une généreine
essayer de trouver les bons prompts
et les bonnes façons de poser les questions aux élèves
donc il faut vraiment très bien cibler
comment générer les données scientétiques
déjà il faut avoir un use case
par exemple se dire moi je générais des données de maths
donc déjà moi je ferai un peu mon contexte
et après il faut trouver de bons prompt
de façon comment poser les questions au modèle
et en général ce qu'on fait
c'est qu'on demande au modèle de générer quelque chose
par exemple un manual scolaire sur de la généreine
ce qu'on fait c'est qu'on lui donne
un extrait d'une page web
qui parle du même sujet comme référence
comme ça le modèle lui pourra s'inspirer
et à chaque fois que je change ma référence
ta génération elle va changer
donc je peux générer beaucoup de données scientétiques
qui sont assez diverses alors que si je
ne donne pas au modèle cette référence
les générations sont vraiment extrêmement similaires
donc typiquement
t'as 15 résultats sur google
qui parlent d'algéa boulinaire par exemple
toi t'aimerais générer
150 exemples
de données
parce que 15 c'est pas assez
ce que tu fais c'est que tu les donnes
à chaque fois en entrée à des prompts
qui vont générer plein de versions différentes
du coup par exemple mon prompt
ça va être génère moi
un manuel scolaire sur de l'algebra linéaire
qui est lié à cette page
du coup je vais mettre un extrait de la page dessus
après il y a des techniques pour générer
pour avoir plus de diversité par exemple je peux lui dire
je veux que ce manuel scolaire
soit pour des étudiants en lycée
ou des étudiants en primeur ou en collège
je veux que le style ressemble à un certain écrivain
on peut vraiment injecter plusieurs trucs
pour avoir une certaine diversité
donc ce qui est cool c'est qu'on peut vraiment bien contrôler
à quoi ressemble le schoolment des génères
et typiquement
les différences de niveau
genre collégien, lycéen, université
est-ce que derrière
tu entraînes le modèle dans cet ordre
genre tu lui te d'abord tu lui donnes du collège
après tu lui le le sais
comme avec les humains
oui en fait
on a essayé de faire ça ça marche pas très bien
on penseraient que ça marcherait mais non
du coup non
j'énerve juste des données pour plusieurs niveaux
et on mixe tout et on entraîne les modèles sur ça
donc je comprends bien les données synthétiques
c'est un peu un effet de levier
c'est à dire que
avec peu de données on est capable d'en générer beaucoup
et aussi d'avoir un contrôle
sur quelle gueule
les ont quoi
en termes de style, de manière de parler
juste que par exemple les références qu'on utilise
c'est des données de web
on a vraiment très beaucoup de données
très beaucoup
on utilise ça comme référence
donc l'idée c'est que j'aurais quelques prombes
peut-être juste 5, 1 pour le lycée
1 pour le collège mais à chaque fois que je vais changer
ma référence j'ai des millions de pages
que je peux utiliser comme des extraits
ça va à chaque fois changer la génération du modèle
et je peux aussi choisir de changer le style
donc on peut générer vraiment
des dates à 7 qui sont assez diverses
donc ça c'est le cas simple
entraîner un petit avec un grand
c'est assez intuitif on se dit que le grand est le plus intelligent
il peut apprendre un petit
maintenant le cas un peu plus étrange
c'est que j'ai entendu qu'il y avait certains modèles
qui pouvaient s'entraîner eux-mêmes
pour le coup
il paraît que c'est les plus gros du coup
qui peuvent faire ça et là c'est plus dur
à saisir
du coup la raison pour laquelle ça peut marcher
c'est parce que le process pour générer
les données il est vraiment très élaboré
par exemple ce qu'on peut faire c'est ce qu'on appelle
c'est pas le terme en français mais chain of thoughts
c'est essayer de raisonner par plusieurs étapes
et du coup on passe vraiment
beaucoup de temps sur la partie génération
de données même si c'est le modèle
qui génère ça en fait il y a quand même
beaucoup d'apports humains pour
être sûr que les générations vont être correct
par exemple je peux utiliser un modèle
pour générer du code et après je vais l'entraîner
sur ce code mais avant de l'entraîner
je vais essayer de vérifier le code si ça tourne ou pas
donc je vais quand même essayer
de générer des données mais je vais filtrer ces données
je vais vraiment utiliser des promes
qui sont diverses pour générer des choses qui sont de très bonne qualité
donc c'est pas ce que le modèle génère
en première sortie mais c'est des trucs
que je filtre très bien comme ça je pourrais utiliser
ces modèles pour entraîner
donc schématiquement c'est pas comme si
le modèle sortait un truc et il re-entrait
c'est ça
effectivement ça paraît débile
il sort un truc et il y a des fils et il re-rentre
c'est ça et il peut même y avoir des humains
le truc qu'il sort c'est pas évident
en fait le prompt il faut que ça soit
un bon prompt
on fait beaucoup d'expérimentations pour trouver
quelle est la manière dont il faut poser la question
pour que ça génère les bonnes choses
et cette partie là c'est clairement la moins intuitive
parce que tu peux te dire
là pour le coup
que toi tu as juste conçu un prompt
et tu génères des données qui sont sensées rendre
ton modèle plus intelligent alors que c'est lui-même
qui a généré ces données
mais du coup je pense que pour détailler un petit peu
ce qui se passe c'est qu'en fait
c'est pas parce que les données
elles sont dans le modèle entre guillemets
que lui est en mesure
d'identifier
ce qui est plus qualitatif
de ce qui est moins qualitatif
du vrai, du faux etc
donc là si je comprends bien
ce que tu fais avec une chaîne
de pensée ou une chaîne de prompt comme on dit
c'est que tu par exemple
tu lui demandes d'écrire un poème
après tu lui dis ok ce poème
réécris-le mais en mieux, corrige
ce genre de truc et tu peux faire comme ça plusieurs iterations
ce qui fait que à la fin
ton poème certes c'est ton IA
qui l'a créé mais en fait
si tu la réentraînes dessus elle ça a amélioré entre temps
exactement parce que lui il a généré
des poèmes mais ils étaient pas tous de bonne qualité
au départ c'est grâce
à ce process de traitement qu'on a réussi à avoir
des données synthétiques qui sont de très bonne qualité
même s'ils viennent de ce modèle
c'est ouf et du coup là on a envie de te dire
ces gros modèles là pourquoi on les enferme pas tous
dans une...
dans un data center
et qu'ils apprennent tout seul quoi
en fait c'est ce qu'ils font déjà non ?
ouais bah tu peux essayer d'avoir 2 modèles
qui sont au corrigeux même je crois qu'il y a déjà
des papiers pour faire ça
ce que je veux dire c'est que
les meilleurs modèles actuels
on pense qu'ils font ça
je crois même
dans le papier de Gemina ils disent qu'ils entrainent
sur des données synthétiques ça vient sûrement
de leur modèle ou peut-être de GPT4 mais oui
ils font ça
ah oui tu peux aussi utiliser un autre modèle
la concurrence que tu sais que ça marche bien
pour te générer
surtout si ils ont réussi à avoir un modèle avant 3
bah tu vas utiliser leur modèle
ah ouais
et donc tout le monde utilise GPT4
celui qui est en première ligne
sur le papier
ça a l'air super séduisant et intéressant
pour améliorer le modèle
mais il y a quand même
des gens qui justement posent la question
de ce qui pourrait se passer si entre guillemets
on tire le fil loin est-ce que
on n'est pas en train
d'ouvrir une boîte de pondards
avec ces modèles qui s'entraînent tout seul entre guillemets
il y a notamment un papier qui est sorti
sur Nature
et qui semble montrer qu'à force
de s'entraîner sur des données non humaines
justement
le modèle devient complètement débile
est-ce que tu as vu ce papier
est-ce que tu peux nous expliquer
justement ce qu'ils ont fait
et éventuellement si tu es d'accord
d'abord
c'était quoi leur idée en fait
je pense que c'est un sujet intéressant à explorer
en gros ce qu'ils ont fait c'est qu'ils ont pris
un petit modèle c'est 100 millions de paramètres
et ils ont pris un dataset
comme Wikipedia, Wikitext
et au départ ils ont entraîné le modèle
que sur ce dataset
et après ils ont demandé au modèle
de compléter
des passages du dataset avec ces générations
du coup ils ont eu un mix entre
des données synthétiques générées par le modèle
lui même et qui vont remplacer
ces passages de Wikitext et aussi un mix entre
Wikitext et après ils ont réentraîné
le modèle sur ce dataset qui est un mix entre
des données synthétiques qui ont été générées par le modèle
et des données du web
et ils ont fait ça sur plusieurs iterations
et vers la fin ils ont trouvé que
quand ils entraînent que sur des générations du modèle
après plusieurs générations
en fait il y a ce qu'ils appellent les fondrements de modèle
modèle collapse, bah ils commencent à générer
n'importe quoi le texte
les fondrements ça fait peur
mais du coup, si j'ai bien compris
c'est comme si à chaque iteration ils remplacaient
10 articles Wikipédia
par le même sujet
mais généré par le modèle
qui est censé l'avoir appris donc ils sont censés
ressortir quelque chose
et comme ça ils font une boucle
ou à la fin il reste 0 données
originales de Wikipédia
et 100% de données générées
et du coup là
ça marche plus
mais du coup c'est quand même intéressant
parce que avec ce qu'on vient de dire
il ne serait pas
censé
à la, j'arrive pas à faire cette phrase
parce que normalement on ne s'attend pas à ce qu'il devienne super fort
après toutes ces iterations-là
Exactement en plus on vient de dire ça
il ne faut pas entraîner sur les sorties des modèles
surtout si c'est un très petit modèle
je crois c'est pas étonnant que ça collapse
Ok toi ça t'as pas trouvé ça
contraintutif alors ? Non pas du tout
surtout ces petits modèles
bah si on entraîne vraiment
que sur ces générations à 100%
ça n'a pas de sens, je pense en pratique
les gens ils savent déjà ce problème
il y a personne qui fait ça, je trouve c'est plutôt un cas très extrême
où tu entraines
déjà le modèle que sur ces propres générations
sans filtrer, sans faire beaucoup d'efforts sur les proses
à deuxième erreur c'est de faire ça de façon
iterative
bah on fait pas ça vraiment
et si on le fait ça va être
il y aura beaucoup d'efforts sur
les proses et sur le traitement des données
donc en pratique je pense ça va jamais arriver
si on fait ça de façon
attentionnée Donc de ton point de vue en gros il y a des problèmes
de méthodologie dans l'étude
Oui exactement déjà
le modèle il est petit et le fait de faire ça de façon iterative
et le fait qu'il n'y a pas de...
Oui les propres générations exactement
il boucle sur lui même
et aussi le fait
qu'il n'y a pas eu
des efforts sur les proses et les générations
on a juste demandé au modèle de compléter
des bassesages de Wikitex
et aussi c'était le modèle
de la même taille alors qu'en général on fait ça
d'un modèle qui est plus grand vers un modèle qui est plus petit
donc je pense dans ce uscay
c'est normal que ça arrive
mais dans la pratique c'est pas comme ça qu'on utilise
dans les synthétiques
Ok donc
ça veut dire que ce papier là entre guillemets
Wikisément il y a pas mal tourné
Oui parce que c'est intéressant quand même à explorer
surtout d'un point de vue théorique pour voir ce qui se passe
mais dans la pratique
c'est pas vraiment ce qu'on fait
Ok donc il semble que
ça montre pas en tout cas que l'idée
de donner synthétiques soit mauvaise
même en fait vous observez l'inverse
c'est quoi que ça marche plutôt bien
ça...on a quand même pas fini de répondre
à un question parce que ça
ça permet de
d'évacuer
l'idée que juste utiliser
les LLM quelque part dans la boucle de l'entraînement
c'est pas en soi une mauvaise idée
maintenant moi ce qui me pose question
quand même c'est
le fait que sur internet
même il y a plus en plus de contenus généri
et ces contenus là pour le coup
il n'y a pas le choix
ils sont là on peut pas juste les retirer
les égaux du dataset entre guillemets
il y a de plus en plus d'articles
de press, de journaux
des blogs de merde qui font du SEO
parfois ils le notent
des blogs qui font du SEO
ou alors tu parles des TikTok
il y a un exemple assez frappant
qui avait été montré par Mr. Fi
donc il y a un youtuber
qui parlait d'un
d'un type de sujet dans la philo
qui est en particulier sur le stoïcisme
qui est un thème qui peut être un peu utilisé
aussi dans les sphères plus entreprenariat
malade
qui est assez marrant
et en fait du coup c'est des milieux
où beaucoup se sont
approprié les outils de génération
d'IA pour essayer de créer du contenu
faire des youtube qui perds etc
et donc c'est assez fascinant de voir
comment un sujet donc le stoïcisme
tu pourrais te dire c'est quand même très spécifique
si tu tapes ça aujourd'hui
sur youtube tu vas voir qu'il y a genre
98% de contenu
généré
cette state sort de mon chapeau mais
et tu vois c'est quand même fascinant
c'est à dire que la recherche
en terme de
résultats sur ce sujet en particulier
tu vas trouver des humains
mais tu vas devoir bien bien scroller
et avant ça tu vas avoir
des montagnes et des montagnes
de vidéos qui sont un peu des sortes de logorés
des GPT-ismes
comme on dit donc
des phrases un peu rundown
sur le stoïcisme et compagnie
en terme de substance je pense que c'est
à pauvre à souhait par rapport à ce qu'il y avait
donc on a vraiment un cas où
là aujourd'hui
en 2024
on regarde cette partie-là d'internet
versus en 2022
je pense que la qualité
justement du texte, la qualité du contenu
c'est effondré
c'est assez objectif
il y a un autre exemple c'est avec un
des certains auteurs
certains peintres
tu t'appelles leur nom
et comme ils sont
utilisés dans des styles un peu
de mid-journée ou des choses comme ça
tu t'appelles ça sur Google Images et tu vas voir que
leurs propres tableaux sont introvables
c'est à dire que tu dois faire 3 pages
de Google Images parce qu'avant
c'est uniquement des générations
de mid-journées en fait ou d'ali
surtout pour des peintres très connues mais qu'on fait
peu de tableaux et c'est logique du coup
c'est logique mais c'est assez fascinant
et donc pareil
2022 très bonne
donnée d'image pour s'entraîner dessus
2024 horrible
je prends des cas super précis
qui évidemment sont pas encore représentatives d'internet
mais ce que toi déjà qu'est ce que t'en penses
est ce que t'as vu des différences
actuellement de qualité entre
entraîner sur 2024
versus entraîner
sur 2021 ou 2020
dans l'air pré-chat gpd
ouais je pense que c'est des
ouais des soucis qui sont très légitimes
surtout en compte on parle d'artistes et tout ça
pour nous on se quitté en termes
de texte et de données sur le web
du coup on s'est posé cette question
et du coup dans un papier qu'on a
fait on a essayé de
chercher si on peut mesurer
s'il y avait vraiment plus de données
synthétiques aujourd'hui par rapport à avant
donc c'est vraiment très dur à faire ça mais on peut
essayer d'utiliser des proxies par exemple chercher des mots
qui sont en général générés par chat gpd
comme le mot delve
le mot quoi ?
moi j'ai vu passer ça
explique c'est génial
en gros apparemment chat gpd
utilise le mot delve beaucoup et si tu vois ça quelque part
il y a une très fortune
que c'est utilisé en général par chat gpd
donc c'est un mot en anglais qui veut dire
rentrer dans un sujet ou ?
exactement ouais en fait
il y a eu quelques je crois c'est un labo
ils ont un peu mesuré
combien d'abstract sur archive
utilise le mot delve aujourd'hui par rapport
à avant chat gpd c'est une courbe qui est
très intéressante en fait après chat gpd
on est passé à 5% d'abstract
il utilise le mot delve à 80%
tout le monde a écrit les abstracts
les résumés
des papiers sur archive
et il faut savoir pour un chercheur
tu me dis si je me trompe mais c'est
chiant d'écrire un abstract un résumé
tu peux t'appeler ton article et tout
c'est le truc que tu dois rendre à la fin
et en fait ça soult tout le monde
en vrai c'est pas si étonnant mais c'est très drôle
donc la courbe sur le mot delve
vraiment après chat gpd
ça explote
génial alors moi j'entends une théorie sur ce mot
sur l'origine est-ce que tu la connais
j'ai vu la théorie
récourtes si tu t'en souviens
je sais pas si c'est vrai mais apparemment
les données qui sont générées
pour entraîner chat gpd c'était des données
des annotations par des humains
et je crois qu'ils ont fait ces annotations
en Nigeria si je me rappelle
un pays d'Afrique je sais plus
apparemment ils ont dit que les gens
ils ont plutôt un anglais qui est académique
du coup ils utilisent beaucoup le mot delve
et du coup les annotations avaient beaucoup ce mot
mais je sais pas si c'est vrai
j'ai entendu la théorie je l'ai trouvé extrêmement
plausible
et je sais pas comment dire c'est duisante
parce que ça fait une explication tout faite
mais apparemment il y a effectivement cette petite zone
du monde
où une fille se met beaucoup ce mot
ce qui a comme conséquence derrière
d'envoyer à archive
je trouvais ça absolument incroyable
oui
pour revenir sur l'étude
on a essayé de chercher par exemple combien de pas
d'utiliser ce mot mais aussi d'autres expressions
comme l'expression as a large language model
vous comptons demander des trucs un peu chelous
il dit ça
ou certaine ly
je crois que dans les ça aussi
du coup on a mesuré ça et on a justement remarqué
que les pages après 2022
il y avait plus d'occurrence de ces mots
du coup peut-être c'est un indicatif qui a plus
de données synthétiques
et comme je disais comme un crawl on a les donner
tous les mois
du coup on peut juste entraîner plusieurs modèles
sur les mois et voir si on a de meilleures modèles
ou de modèles qui sont en pire
ce qu'on a trouvé c'était vraiment l'opposé les modèles après
les choses j'ai peut-être sont mieux
en fait c'est une cour qui augmente
je pense qu'on va envoyer la cour après
mais c'est très intéressant s'attender à l'opposer aussi
mais non ils sont mieux
c'est dur de dire si c'est à cause des données synthétiques
mais au moins on sait que les données synthétiques
ils n'ont pas généré des données qui sont en pire
T'as des intuitions de pourquoi ?
peut-être du coup moi je travaille beaucoup
avec les données de web et les données synthétiques
et je pense que les générations
la qualité de ce que génèrent les modèles
est mieux que ce qu'on a en moyenne
sur le web
il y a vraiment beaucoup de choses de très mauvaise qualité
sur le web et avec ces modèles
la raison pour laquelle les gens l'utilisent
c'est parce qu'ils génèrent des choses mieux
que ce qu'ils peuvent générer
moi je fais beaucoup de tweets
la plupart ils sont réécrits par chat gpt
donc c'est mieux qu'est ce qu'il existait avant
c'est intéressant
donc en moyenne
tu comparas à une bonne vidéo youtube
ou un bon papier ou un bon livre
moi je dirais que c'est une logorie
mais en fait par rapport à la moyenne
de données pour l'entraînement
c'est pas si mal
vraiment il y a des choses qui sont très...
du moins je te propose une théorie
c'est que du coup à ce stade de la chronologie
donc on est en 2024
on est un moment où
en termes de proportion
j'imagine qu'il y a encore une bonne
la plupart d'internet qui est humain
et donc on a un moment où
effectivement ces données qui sont pas de mauvaise qualité
ce qu'elles permettent de faire
c'est de gonfler la quantité
et on a un moment où
on est loin d'avoir optimisé la quantité
par rapport à la qualité
donc juste plus de quantité, même moyenne c'est bien
oui
ça c'est une explication possible
du fait que en 2024
versus 2022 on a juste 2 ans
de données supplémentaires
peut-être que dedans il y a
des gépétéismes
mais que leur qualité
est encore au-dessus du lot
de la moyenne comme tu dis
et en plus ça crée du volume
de données supplémentaires donc on voit
un résultat positif sur les modèles
est-ce qu'on peut pas s'imaginer ?
on tire un petit peu la courbe
sur par exemple dans 5 ans
imaginons qu'en termes
de volume de données
de quantité
on a réussi à faire en sorte que
les terra et les terra c'est plus
10% de trucs super calis
et beaucoup de trucs nuls
mais a optimisé pour que quasiment tout soit
super bien et qualitative
et on se retrouve avec internet
qui est très largement
rempli du coup de données
synthétiques qui sont pas forcément
super calisitatives etc
qui commence à être moins bien que la moyenne du jeu de données
tu vas te le dire ou pas ?
le stoïcisme
par exemple comme pour le stoïcisme
on se retrouve avec les prochains mois
comme une crawl sur le stoïcisme
qui sont juste pourris
2 questions
déjà
est-ce que tu vas être en mesure
de séparer
le bon grain de livret
de voir ce qui est nul et de générer
et ce qui sort du lot
est-ce qu'on sait faire ça c'est techniquement possible
on sait que les profs savent pas
voir si une copie est générée par exemple
donc toi dans ton système de filtres
tu seras capable en 2028
de têche tout le stoïcisme horrible
ou pas
1ère question
et 2ème question du coup qu'est-ce que ça veut dire
sur le futur des data set
ouais je pense c'est une très bonne question
c'est dur de prédire
mais je pense en général
t'es ce qu'on va avoir au futur
c'est peut-être des techniques de ce qu'on appelle
le watermarking
parce qu'en fait les données qui sont générées
par charge-gbt aujourd'hui qui sont sur le web
ça aide pour entrainer des modèles qui sont petits
par exemple imaginons qu'au pnaya
il veut entraîner un modèle meilleur que charge-gbt
il va peut-être c'est pas bien d'entraîner
que sur ces générations qui sont un peu random
c'est pas des générations qu'ils ont fait eux-mêmes
du coup si je pense dans le futur
je crois qu'ils ont déjà commencé
à développer des techniques de watermarking
c'est en gros une sorte de signature numérique
que tu ajoutes aux générations des modèles
les humains ils pourront pas voir
cette signature mais il y aura des algorithmes
qui pourront détecter si ce modèle a été
généré par charge-gbt ou pas
pour l'instant je pense si quelqu'un
génère des données par ces modèles
il change un peu la génération ça marche pas très bien
mais peut-être dans le futur on pourra développer
ce genre d'algorithmes mais je pense qu'il y a vraiment
on a besoin de ça par exemple le problème
de moteur de recherche dont tu parlais
je pense que si on a ça ça peut résoudre ça
on partit et on pourra détecter
les données avec ce qu'il y a et ce qu'il n'est pas
et c'est de mettre en avant les contenus qui sont originaux
Ok parce que tu parlais de techniques
un peu basiques où on cherche
un mot clé genre d'elves qui revient tout le temps
là ça veut dire que c'est plus subtil que ça
Oui exactement ça va être des algorithmes
ça va être plutôt les boîtes qui développent les modèles
qui seront renseigés quoi ces algorithmes
et pourront les utiliser après
par exemple ils vont jouer
sur la fréquence d'apparition
de certains mots des choses comme ça
qui comme tu dis sont invisibles
de notre point de vue
mais en fait sur des gros volumes tu peux dire
le E dans la langue anglaise
normalement il vient 80% du temps
et là en fait on est sur un 76
c'est super bizarre
Ouais c'est un peu des trucs comme ça
ça va pas être directement visible sur les mots
mais sur ce qu'on appelle les tokens
c'est un peu l'équivalent des mots pour les élèves
ils vont essayer un peu de jouer sur la distribution
donc je pense ça va être quand même des algorithmes
qui sont assez avancés
et ceux les personnes qui ont accès à ces algorithmes
pour les utiliser pour savoir si c'est vraiment du contenu général
ou pas
et comme ça ça va être quand même
des données qui on pourra pas voir la différence
mais pour eux ils sauront savoir
quelles données sont synthétiques et quelles données ne sont pas
Mais ça veut dire que les différentes sociétés
qui développent des LLM
il faut qu'ils se partagent les watermark
sinon ça marche pas
Du coup ça c'est une bonne question
Ouais déjà la raison pour développer pour la boîte
ça va être pour elle même pour qu'elle entraîne des modèles
après dans un monde idéal
il faut se partager les watermark
mais je sais pas si ça va le cas
Est-ce que tu penses que c'est possible que du coup
si on tire le fil
il y a un moment où en fait
on arrête le data set
parce que justement en fait 2028
c'est
ça devient, c'est une plausibilité
qu'on s'arrête
à 2025 par exemple
on a des données
qui sont pas trop polluées avant
on garde, après on prend plus
Moi je pense plutôt
de la même manière dont on filtre
les données qui sont du web généré par des humains
on va utiliser les mêmes filtres pour les données synthétiques
parce que en fait
si il y a des données synthétiques qui sont de mauvaise qualité
ils vont pas passer nos filtres
et s'ils passent nos filtres, peut-être qu'ils sont de bonne qualité
il faut les garder donc c'est peut-être pas un problème
pour moi je considère pas que le web
est vraiment pollué par les données synthétiques
parfois ça peut être même un enrichissement
donc il faut juste savoir bien filtrer
si ça passe ces filtres
ou peut-être de l'abandonner qu'il faut garder
c'est vrai que c'est un truc intéressant que t'as dit c'est que
à partir du moment où t'as un modèle
qui est suffisamment
intelligent entre guillemets
pour donner des notes
comme tu nous expliquais sur est-ce qu'un contenu est éducatif ou pas
si ça se trouve
il va pouvoir aider entre guillemets
même dans un futur un peu dystopique
où internet est
encore plus pollué
en fait aujourd'hui on a déjà
je suis à peu près sûr qu'aujourd'hui on donne
un vidéo stoïcisme pourri
et un vrai bon article
Wikipédia
des modèles actuels sauraient faire la différence
oui exactement c'est ça
du coup on peut utiliser des LMS
pour unoter ces données
comme ça on peut les utiliser
du coup si les données elles passent
et qu'on considère que c'est de bonne qualité
même si ils sont synthétiques
c'est d'abandonner il faut la garder
en fait ça veut dire que les LMS sont la chimère et la solution
c'est un peu ça
j'aimerais finir avec une théorie
que je trouve il est honte
une théorie du complot je sais pas si tu la connais
qui s'appelle la dead internet
théorie
tu as déjà entendu ? non
en gros c'est incroyable
c'est donc dead internet théorie
most of the internet is fake
et c'est des gens qui pensent que
actuellement internet est principalement
composé de contenus déjà généré et de robots
pour contrôler la population
et minimiser l'activité humaine en gros
donc sur tous les réseaux actuellement
tous les gens qui vous voient
c'est pas des régions
mais en réalité c'est une stratégie
à la matrix pour te faire croire
que l'humanité
existe
je connais pas bien ce truc mais je crois que
c'est depuis 2017
et du coup en fait l'apparition des LLM
a donné du grain un monde à cette théorie du complot
qui est vraiment
voilà c'est généré
pour le coup c'est une théorie du complot
qui
enfin qui n'est pas un curseur
oui ou non c'est à dire que oui
il y a une partie des bottes partout
t'as du contenu généré partout
et donc je trouve ça assez fascinant
de savoir qu'il servait un nom
juste la dead internet théorie
moi j'ai une dernière chose
du coup a priori même si le web
est plein de contenus généré
vous serez capable
de filtrer, d'avoir des bons filtres
pour savoir si c'est
de la donner de bonne qualité ou non
mais j'ai envie de dire nous les humains
quand on va se scroller sur le web
on est peut-être moins fort que c'est lLM
est-ce que tu penses
que le web
va pourrir un peu comme certains le disent
comme ça et à quelle échelle
de temps ou en fait
ça va se réguler
moi j'ai pas l'air ton avis j'ai entendu
t'incombe si ça peut déjà
Olga qui avait acquis la PS4
qui avait...
j'ai oublié son nom
je vois que tu parles de lui j'ai oublié son nom
attends je vais lire le hotchat
il a fait un concurrent
qui s'appelle
comment il s'appelle
ils vont me le dire dans le chat
geoth
tu vois
justement je l'ai entendue
parler de cette question-là
et il disait qu'en fait c'est probable
que l'interface qu'on est
avec le web entre autres
mais en général je change
et typiquement on ne puisse plus avoir
par exemple un simple navigateur
un peu des raisons que j'évoquais
sur le fait que Google peut être un peu pourri par ça
mais qu'en fait
on pourrait finir avec chacun notre IA
justement qui fait
cette intermédiaire se fit trop là
on l'a dit ils ont la capacité
et tu aurais besoin de faire un truc sur internet
en fait
cette intermédiaire qui le ferait
justement pour t'éviter
c'est ce qu'on voit un peu avec perplexity
c'est déjà un début de ça en réalité
c'est que c'est un site où on pose une question
mais plutôt que donner des résultats
comme Google ou tu dois faire un clic ensuite
il te ramène l'info directement dans la réponse
à partir du web
il sert un peu comme ça de murs d'interface
en fait on aura des filtres à disque
c'est une question est-ce que tu crois que
éventuellement on évolue vers ça
une sorte d'intermédiairisation
de l'info quoi
oui je pense ça peut arriver
déjà maintenant on a Gemini sur Google
je sais pas si vous avez vu mais vous pouvez poser
une question à Gemini au lieu de chercher sur Google
donc ouais c'est un pareil plausible
mais en général sur la problématique
il y aura du contenu généré par Alia
qui est peut-être pas de bonne qualité
on pourra pas distinguer ça
je pense que c'est un problème qui reste
quand même pour les moteurs de recherche et dans le futur
je suis sûr qu'il y aura des solutions pour essayer
de montrer les pages les plus pertinentes
c'est pareil pour Google quand ils ont commencé
c'était une recherche sur le basant sur les manclés
ça ne marchait pas on a développé des trucs
en page rank et pour trouver vraiment
les pages légitimes donc on aura
quelque chose qui est pareil pour aujourd'hui
si il y a une page je ne vous sais pas correcte
il n'y aura pas beaucoup de trafic et ça ne va pas forcément
apparaître très haut
c'est juste qu'ils ont peut-être un peu de retard
actuellement mais que on va trouver le fact checker
par exemple si la technologie existe
c'est intéressant Youtube il faut qu'ils
sur le recherche quand tu t'abstoies
ici et je crois que la vidéo
de monsieur Fidon que tu as mentionné
et maintenant après ça dépend de ton
cache aussi etc mais il y a
une impression qu'il y a des changements mais il y en a encore énormément
mais en 2-3ème position
tu as quand même des vrais vidéos
intéressantes mais c'est peut-être
aussi au service de s'adapter mais ça pose
une vraie question sur nos métiers en fait sur la création de contenu
de faire du contenu
qui est proposé par les IA
potentiellement
oui mais j'avais vu
un schéma hilarant là-dessus
où tu voyais un quelqu'un qui
qui disait à son IA
écrit un mail pour
dire à machin qu'il dit n'importe quoi
c'est à l'IA qui génère un mail super poli
de 15 lignes en mode
je suis pas tout à fait d'accord en machin
le mail part il arrive
et il y a l'IA du destinataire
qui résume le truc
il te dit que tu dis n'importe quoi
et c'est toujours la politesse
c'est juste
c'est juste pour le web
ça passe juste sur http
mais en fait derrière c'est...
je trouvais ça très marrant
merci normalement l'Omnis c'était super intéressant
je me permets d'ajouter parce qu'il y a limite un culte
qui s'est créé dans le chat pour toi l'Omnis
je pense qu'il y a pas mal de tes collègues
il y a notamment Arthur qu'on avait reçu
il y a Julien Chauvant aussi le directeur qui est là
à chaque fois qu'on fait un live avec quelqu'un de guigneface
il est dans le chat
ils ont beaucoup salué
ton expertisé
des gros bisous à l'équipe de guigneface
il y a aussi les autres dans le chat
il n'y a pas que guigneface dans le chat
on est 25 c'est cool
et vous pouvez aller
évidemment follow
ton compte guigneface pour voir
les prochains dataset que tu nous mises
et les prochains modèles
et puis on se retrouve peut-être une prochaine fois
merci Mathieu à toi
pour cette superbe émission
c'était magnifique lineup
c'était trop bien franchement très intéressant
merci aux invités
et des bisous au chat
et on se retrouve non pas la semaine prochaine
non pas dans deux semaines
mais le 8 janvier
à 19h sur Twitch
des bisous

Les infos glanées

Je suis une fonctionnalité encore en dévelopement

Signaler une erreur

Underscore_

IA, Hacking, Robotique — Des conversations de terrain avec ceux qui construisent. 🥨


Partenariats: underscore@micorp.fr


---


Hébergé par Acast. Visitez acast.com/privacy pour plus d'informations.

Tags
Card title

Lien du podcast

[{'term': 'IA', 'label': None, 'scheme': 'http://www.itunes.com/'}, {'term': 'Investissement', 'label': None, 'scheme': 'http://www.itunes.com/'}, {'term': 'Nouvelles Technologies', 'label': None, 'scheme': 'http://www.itunes.com/'}, {'term': 'Tech', 'label': None, 'scheme': 'http://www.itunes.com/'}, {'term': 'Actu tech', 'label': None, 'scheme': 'http://www.itunes.com/'}, {'term': 'Cybersécurité', 'label': None, 'scheme': 'http://www.itunes.com/'}, {'term': 'Développement', 'label': None, 'scheme': 'http://www.itunes.com/'}, {'term': 'Dev', 'label': None, 'scheme': 'http://www.itunes.com/'}, {'term': 'Entreprenariat tech', 'label': None, 'scheme': 'http://www.itunes.com/'}, {'term': 'IT', 'label': None, 'scheme': 'http://www.itunes.com/'}, {'term': 'Robotique', 'label': None, 'scheme': 'http://www.itunes.com/'}, {'term': 'Technology', 'label': None, 'scheme': 'http://www.itunes.com/'}]

Go somewhere