S5E5 - Pourquoi le problème du DDoS est en train d'empirer

Durée: 162m4s

Date de sortie: 11/12/2024



Hébergé par Acast. Visitez acast.com/privacy pour plus d'informations.

Pourquoi Banque Populaire est la première banque des entreprises ?
Je me posais des questions sur le partage de la valeur pour mes salariés.
Elodie, ma conseillère Banque Populaire, m'a proposé une solution d'épargne salariale sur mesure,
rapide à mettre en place et que je peux piloter en ligne.
C'était simple et surtout ça a fait des heureux.
Accompagner nos clients sur tous les territoires avec des solutions adaptées à leurs besoins,
c'est ça, être la première banque des entreprises, Banque Populaire, la réussite est en voulue.
Étude Quantar PMEP, mid-2023, Quatorze Banques Populaires, Première Banque des PM.
Bonsoir et bienvenue dans Underscore, j'espère que vous allez bien, que vous êtes bien installés.
Il est 19h pétante et c'est le début de cette belle émission chargée à bloc.
Chargée. Trois invités, les trois de qualité, trois sujets passionnants.
Et bonjour à tous.
Bonjour à tous, vous l'avez vu, je suis avec Mathieu et avec Thomas Sialom, comment ça va Thomas ?
Bonsoir, m'a écouté ça à bien, merci de m'avoir réussi.
Tu nous viens de chez Métin, est-ce que c'est ton premier live Twitch déjà ?
Oui.
Trop bien, et bien on a l'honneur de faire cette première avec toi.
Et je veux dire l'honneur parce que franchement c'est trop bien de t'avoir.
Depuis le temps que nous on parle de tout ça, depuis le temps qu'on aime commenter les coulisses,
suivre les sorties, etc.
Et bien ça fait plaisir d'avoir des gens de l'intérieur puisque pour ceux qui ne te connaissent peut-être pas,
tu es une des personnes de phare dans LIA chez Métin.
Tu as notamment travaillé sur Lyama 2, Lyama 3 et tu vas tout de suite pouvoir
répondre à une question qui me tarote depuis des années.
Et on a des débats et personne n'est d'accord.
Est-ce qu'on dit Lama ?
Oui.
Ou est-ce qu'on dit Lyama ?
Nous même on se posait la question.
Je pense plutôt de Lama.
Lama ?
Là j'ai anglais, je modèle Métin et...
Merde !
Ah oui, toi tu fais des llamas.
Depuis le début je suis dans l'autime.
Il y a un jour, on entend les deux en interne.
Parce que pour moi c'est l'espagnol.
C'est...
Dégard.
Ok, bon moi il y a des bas.
Un jour on s'est fait engueuler par quelques commentaires de...
Prends-tu pas comme ça !
Voilà, vous avez la preuve en image.
On peut dire les deux.
On a le droit de dire les deux.
Ok, arrêtez, nous empêtez.
Donc on vous a prévu un beau programme.
Est-ce que tu veux nous présenter, vite fait les trois parties,
puis on perd pas de temps.
Et bien après avoir parlé de Métin et de Lama,
en longs, en large et en travers,
on parlera de virtuosisation sur iPad.
Comment on peut lancer un OS qui n'est pas du tout iPadOS,
par exemple Mac OS, Windows,
sur un iPad,
et un petit peu la guerre qui a eu entre les développeurs
qui ont réussi à faire ça,
et Apple.
Et en troisième partie, on parlera du DEDOS.
Alors comme ça on peut se dire c'est un vieux sujet.
Mais en fait, le DEDOS il y en a de plus en plus,
il vient de différents...
Enfin ce n'est plus le même DEDOS qu'avant,
il a muté.
Et en fait, il a muté,
et on recevra quelqu'un qui essaye de se défendre face à ce DEDOS,
il a des méthodes toutes particulières
pour combattre le DEDOS,
et donc c'est un sujet qui connaît très très bien.
Et ça part d'une conférence que j'avais vue sur...
Fernog.
Voilà, Fernog.
Alors on dit vraiment Fernog.
Une conférence très connue dans le milieu du...
Enfin très connue.
Très connue dans le milieu spécialisé du réseau.
Mais non mais par exemple, on a déjà reçu quelqu'un
qui a fait une conférence sur Fernog,
c'est Archambault, l'avocat de Frick.
Et Kemf, GB.
Oui Kemf, il doit avoir un petit abonnement.
Il est partout.
Ouais Fernog.
Bref, donc conférence passionnante,
je me suis dit il faut absolument qu'on habite.
Mais peut-être que ça va devenir un nouveau vizier de sujet.
C'est que je suis déjà allé au Fernog.
C'est vrai?
Quand j'étais étudiant.
Mais non.
J'avais vu.
Non mais les conférences au sens large,
ça peut être un mot.
Près.
Sur ce, il est temps de rentrer dans le viz du sujet
avant de, en gros je te fais un petit peu le planning de notre discussion.
Le but c'est justement de voir avec toi
un peu les coulisses de la création des modèles de langage.
De reprendre un petit peu au début,
de comprendre un peu votre état d'esprit,
d'être, faut que tu nous emmènes un peu dans les coulisses
de cet écosystème qu'on voit nous de l'extérieur
où juste on est là un peu comme avec nos popcorns,
tu vois en train d'attendre que vous bossiez.
Et donc le but ce serait d'avoir, ouais,
ton temps, ta perspective.
Et en deuxième temps de voir,
c'est quoi toi du coup ta vision des choses,
de comment ça évolue,
de quelle vitesse ça évolue,
de l'écosystème,
les concurrents des différents pays.
Et voilà, c'est ça l'objectif.
Avant, est-ce que tu peux vite fait nous raconter
ce que t'as fait avant les projets les plus connus comme Liyama ?
J'ai entendu notamment le fait que t'as bossé sur Galactica.
C'est un peu moins connu.
Ecoute, en fait j'ai commencé en finance ma carrière.
J'ai drop, je pense c'était au moment de Al Fago.
Je me suis dit je veux comprendre ce qui se passe,
je veux savoir ce que c'est.
J'avais fait une petite formation de 6 mois à Polytechnique,
je suis revendredi samedi,
à la fin de laquelle je comprenais un petit peu le machine learning,
zéro du deep learning.
Et en fait c'était exécutif,
il y avait beaucoup de gens qui avaient des doctorats,
il y avait des professeurs et tous des doctorats,
il y avait Alexandre Gramfort qui d'ailleurs maintenant,
il y a META,
quel fondateur de scikit-learn,
les buy machine learning.
Et je me suis dit bon, je fais une thèse sur le sujet.
Et je l'ai fait sur le langage,
la génération de langage et réinforcement de learning.
C'était avant les modèles de langue, avant BERT etc.
Ma première conférence c'était la semaine où ils ont publié BERT.
C'est pour l'anecdote,
le monde est petit,
du coup vous devez connaître Game Face.
C'est là que je les ai rencontrés,
ils n'étaient pas très connus à l'époque,
ils faisaient encore le chat et leur tamaguchi.
Et toute cette semaine là ils sont mieux à croire.
J'ai appris ça, Game Face à la base,
c'est une virtual girlfriend en fait.
Ils ont mordé.
Ils étaient avec moi à cette conférence-là,
on les allait prendre des bières entre Français.
Ils ont converti BERT en de TensorFlow,
le langage de Google vers PyTorch,
le langage un peu général et de META.
Et c'est là qu'ils ont commencé à avoir d'attraction là-dessus.
Comme quoi le monde est vraiment petit,
et moi je commence à peine ma thèse.
Très bon.
Et BERT pour, si ils me souvient,
c'est un projet européen des premiers cours.
C'était le modèle de Google, le modèle de langues.
Ah je confonds avec...
Le premier modèle un peu gros,
de 100 millions de paramètres,
à peu près de Google,
entraîné sur beaucoup de data.
C'était le début des modèles de langues.
Je confonds, c'était quoi le...
C'est Bloom, non ?
Bloom, voilà.
C'est BERT et Bloom.
Bloom qui est venu bien après,
après GPT3.
Ça marche.
Dans l'époque de BERT,
on était en dessous du 1 milliard de paramètres.
Et on s'attendait à ce que ça donne quelque chose.
Et en plus c'était déjà stylé,
mais ce qui est marrant c'est vraiment,
on va reparler les dossiers de la semaine,
on va faire des immenses modèles,
après on essaie de redescendre,
on repart, c'est assez marrant.
Donc pour reprendre un peu au moment
où nous ça nous intéresse le plus,
tu es arrivé chez Meta il y a à peu près 2 ans et demi
où tu travailles alors sur Galactica.
Et là, bam,
à peine quelques mois après,
il y a OpenAI qui sort la première version de
Chajapiti.
Est-ce que toi tu te souviens de ce moment-là
et comment vous vous l'avez vécu
à Meta ?
C'était un moment assez particulier.
En fait, j'ai rejoint
T'as tué 8 mois avant la sortie de Chajapiti,
mais surtout on a lancé Galactica
qui a fait pas mal de bruit
dans le bon et le mauvais sens.
Comme vous avez pu voir.
Ben, non, peut-être que je peux m'expliquer justement.
C'était le premier gros modèle de langue,
il y a un peu aussi de Meta.
C'était le tout début des modèles de langage.
Et Galactica, l'idée c'était d'entraîner
sur, non, énorme modèle de langue,
mais contrairement à l'idée
d'entraîner sur tout le web,
entraîner uniquement sur la donnée scientifique,
les papiers de recherche,
des bouquins scientifiques,
et d'avoir un modèle de la science.
Et alors ça fait un énorme polemique.
À la fois les gens ont trouvé ça fantastique
et étaient des énormes défenseurs.
On a trouvé des gens qui défendaient Galactica sur Terre.
Et en même temps, il y en a d'autres qui disaient
donc le président, je crois, du Max Planck Institute,
disait c'est la fin de la science,
les fake news à grande échelle,
on ne saura plus vérifier
c'est n'importe quoi pour écrire des papiers de recherche.
Nous, on avait juste fait un modèle
comme un outil,
et ce qu'on pense, c'est qu'en fait,
ça peut être utilisé en bien comme en mal.
Moi, en interne, je m'en servais pour trouver des citations de papiers.
Et ça marchait super bien.
C'était avant ChatGPT.
À l'époque, les modèles de langue,
les gens ne comprenaient pas trop ce que c'était,
le grand public encore moins.
Donc on a sorti ça,
énorme buzz, goût, débâts en même temps.
La communauté qui se divise.
Et au-delà de la communauté
purement scientifique, il y a
pour la première fois.
Et deux semaines après,
ChatGPT sort.
C'est bien bon.
Comment vous le vivez cette sortie-là ?
On le vit de différentes façons.
D'abord, au sein de Métat,
les gens sont
c'est dingue.
Je pense que beaucoup de gens ne réalisaient pas en fait,
y compris dans la communauté des chercheurs.
Nous, on était dans...
Si tu veux, on travaillait sur les langues de modèles depuis déjà un an.
On savait ce que c'était, on sentait qu'il y avait quelque chose à faire.
Moi, en fait, je travaillais même sur les instructes.
Le chat, la partie de chat.
J'étais déjà en train de travailler là-dessus pour Galactica.
Mais les gens ont été complètement bouleversés
en fait par ça,
au sein de Métat.
Au début, ça prend, les gens se disent bon,
est-ce que c'est un effet de mode ?
Puis le truc continue de monter, continue d'avoir de plus d'utilisateurs.
Les gens continuent de tester et ça marche bien, en fait.
Et donc, c'est pas juste un effet
ou un out-demo.
En fait, non, ça marche.
Et ça a rend service et les gens trouvent de plus en plus de cas d'usage.
Et les semaines passent et tout le monde
ne fait parler que de ça.
Et je pense que début janvier,
c'est là que Mark Zuckerberg au sommet décide
ok, c'est une technologie,
c'est général propose technologie.
Il faut que Métat soit leader de ça.
Et on démarre la suite.
Et donc concurrencez chat GPT.
Et avec Lama2,
qui sera en fait la version chat de Lama1
qui était mes collègues à Paris, qui travaillait sur la
une version galactica mais généraliste.
Et en plus, quand Mark Zuckerberg décide
un truc, il y va pas à moitié, a priori.
On estime qu'il aura dépensé
dans les 10 milliards en achats de GPU
jusqu'à la cette année en 2024.
Après coup, évidemment,
ça ressemble à un énorme coût de génie.
Surtout avec les pénuries, etc.
Mais au moment où il le fait
et où il fait ce...
Il l'enclenche ce touchous,
est-ce que c'est une décision controversée
même au sein de Métat ?
Est-ce que c'est évident que
les LLM, c'est la direction à prendre ?
Je pense que oui.
Je pense qu'il n'y a pas de controverses à ce moment-là.
C'est presque un peu trop tard.
On était déjà en retard.
Le moment où chat GPT sort,
l'ensemble du monde prend conscience de ce que c'est.
Là où on a été, je pense, assez fort,
là-dedans, c'est qu'on allait très très vite
pour récupérer
et rattraper le retard qu'on avait.
Mais en fait, c'était presque déjà trop tard.
Il y a peut-être... La question qui se pose à ce moment-là,
c'est est-ce qu'on va y arriver
alors qu'on part avec tendance tard ?
Rattraper le retard.
Et avec des questions,
on pourrait revenir, mais c'était un peu la notion
d'un op-corn en interne, mais avec un peu plus de sueur,
on doit rattraper une technologie
et un moment où le monde
se referme en dons la recherche
et où on a des idées
de comment ils l'ont fait.
Il y a des papiers qui s'étaient sortis avant,
mais on n'a aucune idée de l'échelle,
de l'algorithme derrière, du nombre de data.
Est-ce qu'ils ont dépensé
100 000 dollars, 1 million, 10 millions, 100 millions, on ne sait pas.
Est-ce qu'ils ont utilisé les données de leurs utilisateurs,
on ne sait pas non plus.
Et donc en fait là, on est dans l'inconnu
et tous les jours, on va essayer d'avancer et de s'en sortir.
Mais c'est ça qui est intéressant dans ce que tu racontes.
Le fait que OpenAI sortent
non pas un papier de recherche,
mais un produit
à mettre dans les mains de tout le monde
et dont la seule interface
pour vous les chercheurs
et cette UI web
avec laquelle vous pouvez discuter,
ça c'est nouveau en réalité.
Toi dans le monde que tu connais,
ce n'est pas comme ça que ça marche d'habitude.
Faire fundamental research
à l'époque Facebook et Research
était fondée par Yann Lequin, mailleurs qu'est français,
avec comme objectif de départ
que ce soit toujours open source.
Et on continue d'avoir
cette idée
de l'open source avec la main
qui est le seul chat modèle open source
vraiment.
Du coup oui, nous on est très open source,
Facebook a toujours publié de la recherche
en public en open source,
le code, les poids des modèles,
les papiers de recherche
avec le détail de comment faire
et on essaie de continuer avec la main.
Mais c'est la première fois que la recherche se ferme à ce point-là.
D'ailleurs, on parlait des autres
et de comment les concurrents réagissent.
Google était assez ouvert, BERT,
ils avaient publié les poids du modèle, la recherche, comment il les fait ?
Avec ChatGPT qui arrive, ils se refairent mon complètement
et depuis d'ailleurs ils publient plus grand chose.
Il y a même des chercheurs qui disent
ils ont honte si leur travail est publié parce que c'est là que c'était pas très important.
Ah ouais chez Google.
Ça marque vraiment un changement de fonctionnement
de la recherche en vrai.
Ou c'est une course à celui qui aura le meilleur modèle
et où à part Métal, la plupart
deviennent fermés.
Et alors du coup, comment on fait quand on a
aucune info ? Enfin en fait,
explique-nous parce que nous on a jamais fait
des modèles de langage.
À quel point vous êtes dans le broyard à ce moment-là ?
On a des idées parce qu'il y avait encore des papiers de recherche d'avant.
Et puis après c'est un peu
des bons principes, du bon sens.
Quand j'ai commencé le projet,
on pourrait revenir
à quel point vous savez qu'on a eu dans la technique.
Il y a deux types d'annotations,
ce qu'on appelle Supervised Ventuning et RLHF.
Quand on commence le projet,
moi je voulais faire la première, qui me parait
cette la plus standard.
En fait, j'ai réalisé avec
des expériences et en analysant les résultats
et j'ai compris pourquoi la deuxième
était ce qu'il fallait faire.
Mais ça c'est en avançant, en faisant des expériences,
en changeant mes intuitions.
Ah c'est hyper intéressant.
Maintenant on sait effectivement
que cette histoire de RLHF
dont on entend parler tout le temps
est un des éléments
crucials dans la réussite des modèles
de langage qui ont suivi etc. On le sait maintenant nous.
Mais toi à ce moment-là,
on n'a aucune idée quoi. Et même ce que j'ai entendu,
la main de sort, Google s'est pris une grosse claque
parce que eux, comme au début,
pensaient que le RLHF
ne marchait pas si bien.
Et en fait avec la Mado, ils ont
complètement adopté nos stratégies.
Ils les ont rendu depuis un peu améliorés etc.
Alors on ne voit pas trop rentrer
dans le détail mais en quelques concepts,
c'est quoi, cette RLHF ?
Ecoute,
tu veux anoter de la data pour
chat GPT, en grosso modo.
C'est quoi ? T'as du chat, t'as un prompt
et la réponse du modèle.
Le mode qu'on appelle SuperSphantuning,
donc on a supervisé le modèle
et le fantuné dessus sur des données
anotées par des annotateurs,
ça va être créer le prompt
et créer la réponse que tu aurais voulu
par chat GPT.
Le RLHF, c'est
OK, créer le prompt, mais ensuite on va
générer la réponse, plusieurs réponses,
deux par exemple, par notre modèle.
Et on va juste demander à un annotateur
lequel il préfère.
Réponds ça ou réponses B.
Et on va s'entraîner
grosso modo pour simplifier
sur la réponse qu'on a préférée.
Et en fait, intuitivement,
au début du projet, tu te dis
OK, mais c'est généré par le modèle,
c'est moins bon.
Un humain, c'est la
donnée un peu gold parfaite, c'est un peu le standard
en termes de
dans l'IA le langage
depuis une décennie.
Et on fait une expérience et on se dit
on se rend compte que
il faut savoir qu'il y a
plusieurs façons d'anoter, plusieurs types
d'anotateurs, on payait des annotateurs plutôt
chers contrairement à des trucs
mécanicalteurs qui étaient un peu le standard.
Là, on payait vraiment cher pour donner de très bonne qualité.
Parce que c'est le plus important
la donnée à la fin. Est-ce que c'est le plus important ?
C'est un truc qui est aussi spécifique
au modèle de langage.
Ou globalement,
on essaie d'améliorer les techniques.
Mais on se rend compte qu'à la fin,
s'il y a un truc qui est au-dessus de tout le reste, c'est quand même la qualité de la donnée.
On a une expression, c'est garbageine, garbage out.
Et donc, il y a un game
de service d'anotation
ou c'est la guerre
qui aura les meilleures
données à noter pour le moins cher ?
Exactement. Donc il y a une guerre entre les services
d'anotation. A l'époque,
j'en avais sélectionné deux parmi les plus connus.
Et en gros, c'était un peu
on anote avec tous les deux et puis on verra
le résultat. Et donc moi, je les évaluais.
Je regardais leur donnée tous les jours et puis on lance
une expérience et on fait une évaluation humaine.
On se rend compte que
sur les prombes t'as noté par la notation
on regarde la réponse générée par notre modèle
par rapport à la réponse de la notateur humain
sur laquelle on s'est entré.
Et notre évaluation montre que
la réponse générée par notre modèle est meilleure.
Donc notre modèle est meilleure que l'humain.
Alors on se dit,
à mon avis, le notateur, il n'a pas été très bon.
C'est bizarre pour ton avis. Regardez, ça avait l'air pas mal.
Et je regarde à la main
les exemples.
Et en fait, non, notre modèle est juste
très très bon sur ces données.
Et c'est là que j'ai compris vraiment
l'intuition du RLHF et de la puissance de générer
un modèle. On était déjà à un moment
où en fait,
ce que j'appelle Super Human
Capabilitis, on a
un modèle qui est capable de générer des données
mieux que les humains, sur un certain type
de tâche limitée. L'intuition
peut-être que je peux partager là-dessus, c'est
si je te demande de faire un
poème de trois lignes, un haïko
ou les poèmes japonais, sur les larges
engrages de modèle. Là
on peut le faire en une seconde
je pense que personne n'y arrive, même en une heure
je suis pas sûr qu'on soit, en tout cas moi, je suis pas très créatif
là-dedans. Je suis pas sûr que sur Twitch ils y arrivent.
En fait, par contre, si on monte
deux poèmes,
eh ben on est tous assez
bons pour discriminer. Et pour
dire, ce poème là il est bon.
Et donc, j'ai beau ne pas
être très bon pour créer, je suis très très bon
pour dire lequel je préfère. Et ça on est tous à peu près capable de le faire.
Et même tu peux penser, pense à
la création de la peinture Picasso,
il n'a pas fait que des oeuvres
parfaite. Par contre, je suis sûr qu'il est capable
même de dire laquelle il préfère parmi
ses oeuvres. Et donc en fait, on est
capable toujours de
sélectionner de la donnée mieux que ce que nous-mêmes on aurait
pu produire. Or le modèle il s'entraîne sur la distribution
des données. Donc si on
l'entraîne sur ce que les humains créent,
il va répéter les erreurs et les choses bien.
Si par contre on se met à l'entraîner
sur que ce qu'on préfère, il va complètement
réduire la courbe de distribution
sur ce qu'on n'aime pas
et se mettre à distribuer même des choses de mieux
en mieux au-delà de ce qu'on aurait fait nous-mêmes.
Et donc c'est ça l'intuition d'A.L.H.F
que j'ai comprise à ce moment-là dans
Lama 2 et qu'on a ensuite basculé
complètement là-dessus, aux lignes, jusqu'à la fin du projet.
Et alors,
Lama 2 sort
moi je m'en souviens très bien
ça avait fait un boucan énorme
d'ailleurs
c'est celui-là qui a liqué ou pas ?
Non, c'est le 1 qui a liqué.
Il y avait des hitoires de bref
dans la chronologie des sorties, peu importe.
Donc Lama 2 sort
c'est un boucan sur Twitter, sur Reddit etc.
Tout le monde ne parle que de ça.
Tout le monde s'émerveille de voir
comment sur ces 3 modèles
puisque si je m'ai souviens son nom, il y en a
un 70B, un 13 et un
non, il y a un 30 et un 13 je crois.
On n'a pas sorti le 30, on a sorti le 8.
Ah oui, ok. Le 6 c'est 100, 2 fois.
Et tout le monde s'émerveille
des capacités de modèles
aussi petits qui tiennent sur
quelques gigas et qui
semblent évidemment contenir
toutes les connaissances d'internet
et ce qui m'intéresse
c'est de savoir, vous
qui avez bossé et sué
sur ce projet,
déjà vous l'avez sorti en combien de temps
et à quel point vous, enfin c'était quoi
votre état d'esprit au moment de le sortir ?
On va commencer par ça déjà.
Écoute, alors
j'avais commencé un petit peu avec Galactica
à regarder ces sujets.
On a bossé là-dessus
à partir de janvier février
doucement et on a vraiment accéléré
quand la décision était prise en février.
Donc de février
à juin, non stop.
Que sur ça ?
C'est pas beaucoup en fait. Moi j'aurais imaginé beaucoup.
Non, non et on n'était pas très nombreux.
Il y avait les deux premiers auteurs donc c'était moi
et Hugo Touvon qui est aussi à Paris avec moi
qui était le premier auteur aussi de la main
et puis on a été aidés de quelques autres
et puis il y avait Louis Martin
qui était sur la partie safety
vous avez la liste des auteurs après sur le papier
ça s'est fait plutôt à Paris
et assez vite quoi.
Elle n'est pas beaucoup beaucoup nommée.
Et du coup au moment où vous le sortez
vous avez eu le temps de jouer un peu avec
déjà j'imagine, ou est-ce qu'il y a même pas eu le temps peut-être ?
Alors si c'est même on jouait
tous les jours avec
et moi tous les jours je regardais
les différentes versions entre l'ancienne
la nouvelle et ça me donnait des intuitions
de qu'est-ce qui marche, qu'est-ce qui marche pas
ça m'a donné des idées d'algorithmes de quoi faire
avec ça.
Et du coup, est-ce que toi tu en étais satisfait
tu étais un peu émerveillé par ta création
de tel Frankenstein
et quel est
comment t'as perçu justement la sortie
et tout ce qui a suivi après.
Alors, c'était un moment assez bizarre
à la fois j'étais satisfait
dans le sens
il y avait eu des
ce qu'on appelle des rondes de RHF
c'est-à-dire des étapes où je réentraînais le modèle
et je le réentraînais à nouveau sur des encore
meilleures données et je vois
j'avais mesuré sur les métriques que j'avais créé
et les progrès. Je sentais qu'il était pas mal
je l'avais testé sur ce que j'avais eu
de le tester, c'était pas mal
et ce sur quoi on l'avait testé
avec différentes métriques on était vraiment
au niveau avec GPT 3.5 à l'époque
chez GPT. Là où c'est
quand même un moment particulier
tu sens qu'il y a quand même
une énorme pression même en interne
que tout le monde commence à s'exciter autour de ça
tu sais que ça va faire du bruit
et en fait non, on est un peu dans une bulle
en vrai, enfin, comment on est
même la question de comment on évalue ces modèles-là
c'est une question de recherche
donc moi je le tapais sur mes disques insprombes
un peu tous les jours, ils me demandaient
mais arrêter c'est que tu te dis
est-ce que ça peut être un énorme flop
c'est des questions que tu te poses
et en fait ça n'en est pas la
on était content
c'est devenu parmi les modèles
de référence de l'époque clairement et pendant
très longtemps ça a resté
ça fait quoi d'avoir
ce succès-là ?
ça fait plaisir
ce qui était assez cool c'est que
il y a des nuits où on se dit qu'on dépense
la notation c'est des milliers
des centaines de milliers de dollars
à dépenser dans l'anotation
est-ce que là je fais juste le bon algorithme
est-ce que je vais pas dans le mur, est-ce que je vais être prétend
est-ce que le modèle va être assez bon
est-ce que ça s'améliore
et puis à la fin c'est plaisant de voir
que ça a bien marché
est-ce que
tu as parlé un peu de quoi ? est-ce que vous avez budget limité
entre guillemets ?
non c'était quand même
d'une part on n'est pas budget limité
d'autre part les annotateurs
sont limités en termes de budget de ce qu'ils peuvent produire
ok, il y a double limite
et surtout il y a la partie anotation
mais aussi la partie compute
donc les cas de graphique
on l'a dit, ça représente
des milliards à l'achat mais aussi
en fait à alimenter
là-dessus
pour nous donner un peu le vertige
qu'est-ce que vous avez
dans votre arsenal
pour faire je joue avec vos modèles
alors pour la MA2
c'était pas un gros sujet
en fait la MA2 c'est le pré-training
il y a le pré-training et le post-training
le pré-training c'est là où t'entraînes un peu
surtout le web, ça ça demande beaucoup de GPU
on l'a déjà fait avec la main
on a refait la même chose avec un peu plus de données
et plus clean pour que justement
puisse l'open sourcer également
et le post-training, la notation coûte cher
le GPU ça commence d'ailleurs
à côté de plus en plus cher mais à l'époque pas tant que ça
on pouvait s'en sortir avec
un plus de 2000 à 100
c'est pas si gros que ça
C'est bien, trop fort et en vrai
par rapport au H100 d'aujourd'hui
c'est beaucoup plus grand
aujourd'hui je crois que ça a été annoncé publiquement
on est en train d'avoir la histoire de 100 000 à champ
pour la des trucs un peu plus gros
sur quelle données vous avez entraîné
la MA2, tu parlais de tout le web etc
alors vraiment les trucs assez classiques
sans entrer dans le détail
du nom des dataset
les sites web, enfin tout ce qui est public
tout est scrap-up publiquement
on a essayé de virer tout le copyright
il n'y a absolument aucune
donnée de Facebook
ou d'utilisateurs au grand
donc c'est vraiment reproductible en externe
on n'a pas donné le détail
des dataset mais ça serait reproductible
il y a un truc qui s'est produit après la sortie
de la MA2 c'est que comme tu l'expliques
toutes tes open et reproductibles etc
ça fait énormément d'indépendants
et de boîtes se tiersent
ça amuse à faire des fine tuning
donc les prendre telles qu'ils sont
et les spécialiser pour parler d'une certaine manière
pour avoir des nouvelles capacités
pour être plus performant potentiellement
c'est quoi les
les fine tuning ou les projets
de ce genre qui t'ont un peu marqué
ou qui t'ont rétonné
il y en a eu tellement, c'est le zoo
des lamas sur WingFace
je crois qu'il y a eu des dizaines de milliers
de modèles fine tunés sur la MA2
il y avait
quelques uns
il y avait Gorilla sur les tools
qui était pas mal
donc en gros c'était pour permettre
au modèle de faire du fung...
alors en fait la MA2 on s'était vraiment concentrés
sur le coeur, ce qu'on appelle Halephoones
suivre des prendre des instructions générales
là où pour la matron on l'a vraiment étendu
sur un truc beaucoup plus holistique
le code, un peu les tools
le reasoning et les maths
et donc là où la MA2
était très forte sur le chat
mais mauvais sur tous les autres
des angles morts qu'on avait
la MA3 était bien bien, les gens ont eu beaucoup plus de mal
à faire du fun tuning sur la MA3 et le battre
mais du coup la MA2 il y a eu toute une famille de modèles
spécialisées sur le code, spécialisées sur les tools
les API
Function Calling
spécialisées sur les maths
il y a eu énormément de trucs et ça a donné plein d'idées
en termes de recherche, de data
sur lesquels on a pu s'appuyer après
donc les petits indépendants qui font
des fun tuning et qui font jeu-jou
ça va un vrai impact
ça va être un impact
mais parfois vous avez
des coups d'assets en fait, ils sont pas clean
il n'y a pas de licence
donc on va pas le réutiliser
maintenant si on voit qu'il y a du signal
ça nous permet en tout cas de
aujourd'hui le problème c'est qu'il y a trop de papier
il y a trop de recherche et c'est dur
de sélectionner ce qu'il y a de l'impact ou pas
et donc si on voit qu'il y a eu du signal
sur une approche
même si on ne l'utilise pas directement
l'algorithme est donné
on va regarder de plus près et on va peut-être s'en servir
sans l'inspirer
t'as parlé des fun tuning de l'AMA2
qui parfois batait en termes de berge-pintre
l'AMA2 lui-même
qu'est-ce que ça veut dire d'un point de vue scientifique
ça veut dire qu'il y a un soucis
sur le modèle de base ou non au contraire
c'est juste ils l'ont amélioré
t'avais l'air de dire que sur l'AMA3 c'était moins le cas
parce qu'on a anoté principalement
en post training en RHF
des instructions un peu communes
au sens
sans skills expert
c'est-à-dire ce qu'on appelle health-unas
concrètement dans le papier
c'est-à-dire qu'on n'a pas anoté
on n'a pas demandé à des annotateurs spécialisés en code
de faire des programmes informatiques en RHF
pareil en maths, pareil sur les API
et le chaine calling
le multilingue non plus
donc il y avait toute une set de capacités
ce qu'on a rajouté dans l'AMA3
pour lequel on avait juste 0 annotations dans l'AMA2
et donc
c'est un peu logalithmiques en général
en termes de progrès
si ta note ne serait-ce que 1000 exemples
ou que tu les crées synthétiquement
beaucoup l'ont fait avec GPT4
qui était déjà bon là-dedans
et que tu les mets dans un AMA2
tout de suite ils boostent
en fait c'est un peu comme si
dans la langue
il y avait des zones de compétences
un peu diffuses comme ça
et vous vous êtes concentrés sur
ce que les communs des mortels ont
mais c'est possible d'aller
aller grappier de l'expertise
dans un maximum de sujets
de la compréhension par exemple
de langage de programmation etc
en fait si tu veux
le modèle de pré-training c'est un diamant brut
et après on le raffine
et si tu le raffines que pour
de l'anglais
du général instruction
et pas du tout d'autre chose bah il va juste être mauvais
mais dès que tu le remontes un peu ça lui fait remonter ses compétences là-dedans
tu mentionnais le fait
qu'il y a des
Iyama qui étaient utilisés par
moi qui mentionnais que Iyama était
réutilisé par d'autres boîtes
ça me fait penser à un autre sujet
qui je trouvais super intéressant c'est
les
les guerres de talent
et les concurrences
parce que c'est à peu près le moment
si mes souvenirs sont bons où il y a Mistral qui se crée
et où je pense il y a une bonne partie
de l'équipe de Métac qui quitte le navire
ciao les potes
si vous nous racontez un peu comment c'était en interna ce moment là
est-ce que c'est genre panique à bord on a la moitié
de l'équipe qui disparait
ou au contraire c'est pas grave
écoute c'est jamais agréable de voir des collègues partir
après non enfin c'était pas panique à bord
d'abord
moi je trouve ça très cool qu'il y ait d'autres initiatives en France
il y a eu Mistral
il y a H, Pulside
et Qtai aussi
donc certains de Métac étaient partis
c'est assez cool de voir l'écosystème grandir
puis ça nourrit un peu la compétition
je vais dire dans le bon sens du terme
donc ça c'est très cool
puis ça fait plus d'opportunités en tant que chercheur
et puis pour tous les gens
à Paris qui voulaient rester
avant il y avait principalement que Métac
maintenant il y a pas mal d'autres boîtes et ça c'est vraiment bien
maintenant au sein de Métac au moment où Mistral part
non c'est pas forcément un problème
parce que c'est des gens avec qui tu bossais perso
alors moins
ils avaient beaucoup bossé sur le pré-training
de la main
qui était déjà là
nous on avait fait Galactica en terme de pré-training
et là je bossais vraiment Icugo sur le post-training
le ré-la-chef
parti pour laquelle ils n'ont pas beaucoup travaillé
ils n'avaient pas encore regardé
et donc ça m'impacte pas au quotidien
c'est-à-dire c'est des gens très compétents
et s'ils étaient restés pour continuer de travailler avec nous
ça nous aurait aidé encore plus
et ça aurait été cool
mais ça nous impacte pas directement
sur le sujet des talents tout à l'heure
tu mentionnais que Google OpenAI
a ne publié plus rien
est-ce que c'est un impact sur
les talents
est-ce qu'ils préfèrent être dans une boîte
qui va publier
parce que c'est normalement
tout le métier d'un chercheur de publier
ou comment un peu
la guerre des talents a eu lieu
sur ce duopole
open source close source
écoute
ce que je...
sans langue de bois ce que je peux dire c'est qu'aujourd'hui
je pense que le 1 des n°1
ça reste encore openAI
on s'est très très bien rapprochés
on est pas loin mais ça reste le n°1
mais nous on est celui qui fait de l'open source
et donc aujourd'hui je vois beaucoup de gens
qui restent chez openAI encore qu'ils ont eu pas mal de gens
qui sont partis
nous il y a beaucoup moins de gens qui partent
et il y en a beaucoup qui arrivent
et par contre quelqu'un n'a pas en effet pris entre le marteau et l'enclume c'est Google
effectivement je vois beaucoup de gens de Google
qui veulent venir chez nous
ça joue dans le
dans le côté chez nous vous pouvez publier
ouais clairement je vois beaucoup de chercheurs pour qu'ils s'acontent
ok
intéressant
et simplement
en termes de vision de l'extérieur
si ça se trouve il y a pas grand chose à en dire mais moi j'avais cru comprendre
et c'est dur de se faire un avis justement quand on est pas
un chercheur en soi
que c'est
justement ces gens qui avaient quitté META
et qui ont fondé MISTRALE
sont allés plutôt très très vite
tout toi de l'extérieur
simple ou curiosité mais est-ce que
c'est...
ah ouais ils ont bien bossé c'est quand même
impressionnant ou simplement
c'est... c'était évident que ça allait
arriver
écoute je dirais que c'était
évident parce qu'on savait qu'ils étaient bons
ouais en gros aujourd'hui
des bons chercheurs qui ont bossé au bon endroit
qui ont un peu de fonds
peuvent faire des supermodels super vite
parce que
parce que l'écosystème
c'est pas encore super mature c'est ça ?
ouais alors chérés
oui mais pas beaucoup
il y a pas beaucoup de gens de ce niveau qui auraient pu le faire
1
et 2 c'est de moins en moins de cas
mais d'ailleurs même pour MISTRALE ça devient dur à ce niveau-là
parce que
tu peux le voir un peu comme des... je le vois comme des layers
ou le pré-training
avec une petite équipe tu peux vraiment détraire mon résultat
puis après le post-training ça commence
à se complexifier surtout quand tu rajoutes
alors maintenant le multimodal, le speech
les images
et puis là on rajoute la vidéo le long contexte
les tools avec les agents
et qu'on rajoute toutes ces couches-là
comme ça une par une
à chaque fois en fait c'est
il faut quelques personnes pour le faire bien
mais le problème c'est que ces personnes
elles doivent communiquer s'intégrer pour un modèle unifié
et donc ça rajoute de la...
pas des... c'est difficile d'avoir une équipe de 10
il faut avoir une équipe de 20, 30, 50, 60
qui dit équipe, dit manager, dit layer de hierarchy
dit la communication qui il faut en mettre
et ça devient un vrai challenge organisational
et donc ça ça devient dur
et ça c'est un savoir-faire qui existe évidemment
chez les gros poissons, chez Métach, chez Google
et puis ou tu as beau avoir tous les talents du monde
à 10 tu peux plus avoir tout ça
d'un coup et donc tu vas moins vite aussi
des équipes qui font tout ça
forcément elles vont moins vite
qu'est ce qui fait d'après toi qu'il y a autant
de français, de non français
qui sont connus, reconnus et influents
dans le monde des modèles de langage
euh...
je pense que
ça a beaucoup
à voir avec Facebook
en fait
en gros on a des très très bonnes écoles d'ingénieurs
en France
et avant 2008
la plupart de ces étudiants
il y allait où ? la voie royale c'était
Londres dans la city
ou New York à Wall Street
en finance
après 2008 t'as des gens de plus en plus qui restent en tech
sauf que au lieu de sexe patrier
ils ont la possibilité grâce à Yanlokin à Facebook
d'aller à Paris
notamment le système de cifre avec des thèses
à Paris
moi j'ai fait une cifre mais Guillaume Lamp
le fondateur de Mistral a fait pareil avec Métat
Hugo qui trait avec moi
sur la main 1 et 2
était en cifre avec Métat
et j'ai plein de collègues comme ça
faut préciser que la thèse cifre c'est un méthode de financement entre
une université et une entreprise
donc c'est une thèse et en particulier pample avec Métat
ou du coup tu fais ta thèse avec Métat pendant 3 ans
donc t'as accès à des ressources incroyables
tu peux rester à Paris
tu bénéficies du système éducatif parisien
et ensuite t'as la possibilité d'être chercheur
en restant en France
ce qui n'était pas le cas par plan finance
et donc en fait t'as tout un écosystème
depuis plus de 10 ans qui s'est mis à grandir en France
avec des chercheurs français qui ne partaient plus
et qui un jour
quand le système a atteint un certain cycle
se sont tous mis là à rester avec les LMS
à vraiment partir, commencer à fondre des déboites
mais même d'autres comme elle s'appelle
en santé
un ancien de Métat qui est parti
au bout de quelques années qui s'était fait racheter une première boîte
qui avait fait Métat et qui a recréé une boîte à Paris
ça a créé un écosystème qui a ensuite Q-tie, Mistral, Mmh
tu pourrais te dire
des bonnes écoles et une présence de Métat
il n'y a pas qu'à Paris, comme tu t'as mentionné
Londres ou aux US etc
pourtant
c'était une bulle
ou un sentiment
mais qu'il y a une prépondérance française
il y a une prépondérance française
c'est vrai
ils ont beaucoup de bons chercheurs à Londres
ou à San Francisco
mais c'est vrai
il y a un côté très français
d'excellence là-dessus
je dirais juste qu'il y a un côté très française d'excellence là-dessus
et que ça s'est rajouté avec le fait qu'ils ne sont pas partis pour une foyer
parce que t'en as quand même quelques uns qui sont partis
avant que le...
aujourd'hui tu parles de Mistral etc
ils sont en France
avant ça et ça n'existait pas
les soins auxquels tu penses
François Chollet était à Google aux États-Unis
Yann Lequin était
à Facebook aux États-Unis
donc en fait il y a quand même beaucoup de français qui étaient partis avant
c'est ça qui a changé un peu
il peut être intéressant
il y a un truc dont que t'as mentionné
un moment c'est
on l'a dit
l'importance absolue d'avoir des données de qualité
or
tout le monde ne réalise peut-être pas
c'est qu'on est arrivés en fait
à la fin
des données de qualité textuelle
qualitative
gratos entre guillemets
que aujourd'hui les modèles sont entraînés
avec l'ensemble d'internet déjà
et que
l'ensemble de Youtube même probablement
enfin bref toutes les bases de données
qu'on peut imaginer
et certains
à ce problème là
imagine la... d'utiliser
des données générées justement
alors je sais plus comment on appelle ça
exactement
des données synthétiques
c'est quoi ton avis de la suite toi ?
ça c'est intéressant, moi ça fait longtemps que je pense que c'est le futur
pour une raison
qui est même différente du fait que c'est parce qu'on arrive
à la fin des données
mais c'est pour la... c'est pour ce que je vais t'expliquer
c'est aussi pour ça que j'ai jamais cru à la fin des données
alors il y a des papiers qui ont montré que ça ne marchait pas
on prend un modèle
on lui fait générer de la donnée
on s'entraîne dessus et ça tombe en vasclos
ça marche pas
évidemment que ça marche pas
et je trouve ça un peu débile en fait
ce genre de papier
là moi je rai maintenant sur les agents
depuis que j'ai quitté le post-training avec la M3 l'été dernier
et donc c'est
des LLM auxquels on va donner accès à des... ce qu'on appelle des tools
internet, une calculatrice
exécuté du code
et donc
un truc c'est que ok mon LLM il n'a pas besoin d'avoir tout le savoir du monde antiste
il peut aller sur internet
si je lui apprend juste d'aller sur internet
et la même façon il n'a pas besoin de savoir faire tous les calculs du monde
les plus compliqués s'il accède une calculatrice
moi je suis pas forcément le meilleur en calcul mental
tu viens de calculatrice je vais ça le faire
du coup
ça veut dire que tu peux poser des questions
des LLM et maintenant ça vient des agents
ils vont aller chercher de l'information que
dans leur poids eux-mêmes tout seuls
sur de ne pas accès à ces tools ils n'auraient pas réussi
mais grâce à ces tools ils vont réussir
et donc on peut les réentraîner sur des données
mieux par construction
que ce que eux-mêmes auraient produit tout seul
ok donc en fait tu utilises
le modèle
plus un peu de logique
donc par exemple
lui faire revoir son propre output
faire des chaînes de pensée pour qu'il l'améliore sa réponse
et ça ça produit par exemple une réponse
qui sera supérieure donc typiquement je reprends ton exemple du haiku
peut-être que de base
ton liama 4
son haiku
il est pas dingue dingue
mais tu lui demandes de le retravailler 3 fois
ça te crée une nouvelle donnée originale
pour faire de l'entraînement
et très concrètement tu as mis du compute en plus
donc c'est pas gratuit
ça dépensait plus d'efforts
que ce que le modèle tout seul aurait produit pour ça
donc tu as nécessairement
si tu fais les choses pas trop mal
un output de meilleure qualité
et donc tu es pas en vasclos tu t'améliores
et donc c'est un truc qui se développe
déjà chez Métail
un truc qui se développe bien chez Métail
il y a eu des papiers qui ont été publiés dessus
et c'est pour moi une des plus grosses directions
dans les prochaines années
parce qu'en termes de progression
le plus fulgurant évidemment c'était
entre la main 1 et la main 2
où là tout le monde a pété son crâne
la main 3 arrive avec pareil encore
une amélioration nette
après j'avoue j'ai un moins suivi
3.1, 3.2, il y a des choses comme ça
et
mais globalement
la courbe
si on désoumme un petit peu qui se dessine
c'est plutôt quelque chose de logarithmi
j'ai l'impression mais justement c'est quoi
ton sentiment
est-ce qu'il y a encore des grosses
barrières
qui peuvent être levées pour augmenter la qualité
ou est-ce qu'on est en train d'arriver
à la qualité maximum
par milliard
entre guillemets de poids
alors il y a 2 aspects
je pense que la première réponse c'est
la meilleure qualité ça dépend
sur quelle distribution
si tu prends une distribution de l'ensemble des cas d'usage et des tâches
en fait il y a des tâches pour lesquelles les modèles sont déjà super bons
générer un poème en fait ils sont déjà assez bons
est-ce qu'on va encore les améliorer beaucoup
en fait ils sont déjà super bons
ça sert à quoi
faire de la traduction, faire du résumé ça marche plutôt bien
par contre il y a tout un tas de tâches pour lesquels ils sont mauvais
et là je pense que même les petits modèles
on va pouvoir les améliorer encore beaucoup
et ça a un impact assez significatif
parce que
à chaque génération tu te mets à avoir
un modèle de plus en plus général et holistique
qui répondra à tous les cas d'usage potentiel
et la deuxième chose c'est
si on se met à rajouter de l'inferance compute
dont on vient de parler, des tools etc
alors c'est plus juste le lm mais c'est un système
et là potentiellement
il peut te faire des tâches
de dingue qu'aujourd'hui on peut pas avoir
et justement c'est
parmi sur ce genre de questions que t'es en train de toi maintenant travailler
ça ça
ça s'appelle comment
ton équipe pose
ton projet, en quoi ça consiste exactement
ce que t'es en train de faire, tu pourras peut-être pas tout nous dire
mais dans les grandes lignes
c'est une équipe agent qu'on a monté pour
agent
et moi j'ai un papier de recherche la tu que j'ai publié
Gaia, Génial et Assistant
le concept est assez simple
prendre des tâches et donc c'est la tu qu'on se concentre
on peut dessiner des tâches assez
simple pour n'importe quel humain
il n'est pas besoin de skill expert
savoir coder, savoir faire des maths
je vais donner un exemple tout bête mais
va sur le twitter de la NASA
regarde la photo qu'ils ont publié
la première semaine de janvier en 2022
il y avait des astronautes
et trouve la durée
dans l'espace de l'astronaute à gauche
c'est une question pour laquelle
c'est sûr qu'aucun élève se sera à répondre
c'est pas dans le pré-training, c'est pas sur internet cette info
en même temps si je donne assez de temps un humain
il est capable de le faire
et donc si j'avrive à craquer ce problème
et avoir des modèles qui aujourd'hui sont
nulle part pour savoir répondre à ce genre de questions
et il y a arrivé de façon à 100% comme les humains
alors on peut dire que ça va transférer
sur des tâches
un niveau de robustesse dans la vie de tous les jours
pour nous accompagner et exécuter pour nous
comme des assistants personnels généraux
et c'est ça sur quoi je travaille
donc si
on part un petit peu de la base
à l'origine un modèle de langage
ce qui fait c'est qu'il crache du texte
donc c'est du texte d'intérêt, du texte en sortie
pour le modèle de base on va dire
et donc
pour pouvoir brancher des outils dessus
on essaie de lui faire parler une certaine langue
si mes souvenirs sont bons
donc typiquement on va avoir une syntaxe qui décrit
un peu comme en programmation d'ailleurs
un ensemble d'outils
ou de fonctions auxquelles on peut passer des paramètres
etc c'est ça ?
bon maintenant qu'on a dit ça
on a vu un peu déjà
des démos qui existent ce genre de choses
donc typiquement je vais prendre l'exemple
de chat gpt
où il va pouvoir aller utiliser de la recherche sur google
ou faire tourner du code piton
dans une sandbox pour afficher un joli graphique
bref donc ça on a vu ce genre de choses
mais effectivement il y a des limitations fondamentales
qui font qu'aujourd'hui
c'est très pratique
quand il y a genre une étape
ou peut-être une ou deux étapes
et moi ce qui m'intéresse
c'est justement toi ton avis là dessus
et qu'est ce qui fait qu'aujourd'hui
il y a une sorte de mur infranchissable
après
une action qui fait qu'aujourd'hui
on peut considérer qu'ils ont plutôt le niveau
d'un élève de sixième là dessus
et pas d'un
super collaborateur efficace
moi mon avis c'est que ce sera résolu
en partie dans les prochaines
c'est juste que
il y a une date évancé on n'a eu la temps d'épargner
résolu on verra jusqu'où
mais on ira bien au delà d'une étape
mon avis c'est que
j'avais trahi là dessus
tout le former
qui a fait mal de bruit à l'époque
un transformer qui peut utiliser tous les...
ma conclusion à la fin de ça et j'ai été passé
sur la MA2 juste après
c'était en janvier de l'année 2
j'ai commencé à bosser sur la MA2
c'est qu'il faut un modèle qui a suffisamment d'intelligence
pour commencer à faire marcher ça
et je pense qu'avec con gros gpt4, la MA3
on y est
donc maintenant qu'on a la MA3 je peux retourner à faire ça
et juste en faisant marcher
en annotant les bonnes données
en ayant le bon infrastructure
le bon environnement
je pense que naturellement ça va se débloquer
et c'est juste que c'était des étapes intermédiaires qu'il fallait avoir
et tu ne penses pas donc
qu'il y a aussi des
limites qui sont intrinsèques
à la manière dont marche le modèle
qui le rend incapable
d'avoir une sorte
de vision long terme
et une capacité à aller
créer des étapes intermédiaires
entre lui et un objectif long terme
tu penses que
simplement entre guillemets par amélioration progressive
des modèles de langage
on va y arriver
oui je pense que oui
maintenant définissons que c'est qu'un modèle de langage
quand tu commences à rajouter des actions
ce qu'on appelle grounded
on va l'ancrer dans le monde réel
parce que c'est plus juste qu'il va générer un mot
et c'est lui qui l'a généré
il va générer une action
il va observer l'impact sur l'environnement
il va pouvoir s'adapter à ça
est-ce que c'est toujours un lm? c'est débattable
je pense qu'avec ça
oui on peut débloquer
parce que tu peux avoir des arguments qui disent que
en fait par nature
comme à chaque nouveau token
il a une petite probabilité supplémentaire
de s'éloigner de sa cible entre guillemets de la cible barfaite
naturellement
ça peut que diverger entre guillemets
oui oui je vais
et c'est des arguments que donne Yann Lequin par exemple
sur les limites potentielles
fondamentales de ces technologies
comment tu penses que ça peut être
réglé entre guillemets
alors
il y a plusieurs façons dont ça sera réglé
encore une fois je pense que ça sera réglé
maintenant la méthode avec laquelle on réglera
je sais pas encore
mais ça sera basé probablement sur des transformeurs
est-ce que c'est optimal il y aura probablement des meilleurs algochains
mais ça suffira
est-ce qu'on pourrait faire beaucoup mieux
beaucoup plus efficients certainement
est-ce que ça suffirait pour enloquer
50, 100, 200 steps
je pense que oui
il n'y a pas besoin d'avoir
les capacités de planification d'un humain
pour être utile
rien que passer de 1 ou 2 étapes à comme t'as dit
50
c'est un potentiel de fou
et ça je pense qu'il y a des transformeurs d'aujourd'hui on peut facilement faire
maintenant
planifier
6 mois
c'est autre chose
peut-être qu'il faudra des nouveaux composants qu'on n'a pas encore
mais encore une fois c'est moi aussi mon approche de la recherche
c'est ce que j'ai fait avec Galactical, AMA2
AMA3 et maintenant
les agents
c'est que pour moi c'est chaque nouveau lailleur de la recherche
se base sur celui d'avant
et en fait ça sert à rien de commencer à trahir sur un truc qui est beaucoup trop loin
si on peut encore scaleer
et faire marcher et améliorer ce qui est existant
parce que on n'est pas juste sur un processus stératif
on améliore un petit peu
à chaque fois on n'a pas lié en termes de capacité
et tant qu'on approche et qu'on améliore
ça permet de nous bloquer aussi le next
si j'avais gardé l'AMA2 et pas l'AMA3
aujourd'hui les agents ça marche
je n'aurais pas la même réponse
c'est intéressant parce que
on a cette vision du chercheur
surtout en IA où ça va vite
on se dit qu'il y a des équipes qui travaillent sur ce qui va sortir
dans 3 ans
et en fait tu nous dis un peu l'inverse
tu nous dis qu'il faut y aller par étape
parce qu'en fonction de ce qui va sortir le mois prochain
ça peut complètement changer la façon dont on travaille
dans 2 mois
c'est en tout cas mon approche
je sais que c'est pas l'approche de tout
mais moi c'est mon approche
c'est à que je pense que si t'as pas débloqué
les gens qui travaillent sur un modèle dans 10 ans
alors qu'il n'y avait pas encore l'AMA2
ou l'AMA3
c'est probablement obsolète sur quoi travailler
en tout cas c'est mon avis
vous travaillez déjà sur l'AMA4 ?
oui
bon l'AMA3 est sorti donc oui
c'est pas un scoop
mais
est-ce qu'on peut savoir justement
c'est peut-être un peu ce que tu nous as dit
mais qu'est-ce qui va être intéressant
dans ces nouveaux modèles ?
je peux pas trop spoler
mais c'est évident qu'il sera juste meilleur
en tout et multimodal
et qu'on essaiera d'avoir des habiletés
un peu générales comme ça
et en fait de l'améliorer
après voilà c'est là aussi où c'est intéressant
c'est
tout le monde travaille
et il y a plein d'équipes de travail sur plein de capacités
plein d'améliorations en termes d'efficience
en termes de contestation en termes de ceci-ci
et qu'est-ce que sera l'AMA4 ?
c'est là aussi où c'est de la recherche par contre
et on verra ce qu'on a le temps de réussir ou pas
et en fait aujourd'hui on travaille dessus donc c'est dur
même de y répondre j'ai quelques intuitions de ce qui va marcher
mais
donc typiquement selon ta parlait le côté agentique
moi je travaille dessus maintenant faut que je réussisse pour que ça soit dans l'AMA4
c'est ça
et bah on espère que tu vas réussir
qu'est-ce qui change d'un point de vue
conception d'un point de vue architecture entre un modèle multimodal
tu l'esvoquais pour l'AMA4
et un LLM classique
c'est très différent quand a développé
alors c'est pas du tout mon expertise
ok c'est pas très différent
donc en gros en gros il y a deux types d'architecture
un peu comme Flamingo
que Google a fait et puis d'autres plus
plus directs qui semblent plus prometteurs
aujourd'hui
en gros l'idée c'est juste que t'as un LLM
t'entraîne aussi un modèle de vision
et les features du modèle de vision
tu peux les connecter comme des tokens
et du coup t'as un modèle qui fait à la fois des tokens de texte et d'image
ok c'est pas très dur
tu fais la traduction de tokens
tu fais la traduction entre les différentes
en fait ton transformeur LLM il est tellement général
que que les des tokens texte
des tokens image ou de n'importe quelle modalité
ça marche
un peu pareil
c'était quoi justement la stratégie
sur la location des ressources
parce que vous avez donc des firmes de gp mais complètement léfinantes
et donc tout ça
en fait la décision
de telle semaine il bosse sur telle ou telle truc
l'impact c'est genre des centaines de milliers d'euros
de dollars
de coups
comment c'est quoi votre stratégie justement
sur entraîner, continuer à entraîner
l'AMA4
ou commencer à bosser sur celui d'après
c'est une très très bonne question
et c'est une question de recherche ouverte
comment
c'est quoi la balance entre les priorités toujours court terme
moyen long terme
c'est super dur
et
idéalement le setup c'est quand même de réussir
à avoir toujours des petits prototypes
pas très coûteux à base échelle
pour démontrer des premiers résultats
avant de le scaleer c'est un peu ça l'intuition
de bon sens
c'est pas toujours suffisant
c'est pas toujours parfait c'est au cas par cas
et franchement c'est difficile comme question
donc à l'heure actuelle c'est un peu au doigt mouillé
vous dites bon allez celui là ce sera 6 mois d'entraînement
c'est pas au doigt mouillé c'est un mélange entre
là où la ville le consensus des chercheurs
de l'équipe va aller grosso modo
là où la demande
aussi de la communauté
externe de l'open source et interne
parce qu'il y a des utilisateurs dans méta
méta et aille nous disent que ce qu'ils voudraient est ce que
les utilisateurs voudraient pour le produit de méta
où est la priorité
et les résultats aussi qui tombent
au fur et à mesure donc c'est un mélange un peu de ces
trois choses pour réarbitrer
pas quotidiennement du tout mais
est-ce qu'on a fait suffisamment de progrès pour
que ce soit une nouvelle version quoi
la ma 4 ?
en gros j'ai malé le truc à arbitrer c'est est-ce qu'on a suffisamment progressé
pour que ça crée une nouvelle version
ou est-ce qu'il faut continuer à train ?
ou un nouveau champ de recherche
ou une plus de notation
là où il y a un paradigm shift
c'est le nombre de gpu on n'a peut-être pas assez parlé
méta avait pas tant de gpu que ça
entre guillemets pour la ma 2
en tout cas beaucoup moins que les compétiteurs comme open ai
et google c'est venu assez tard
en fait ces gros investissements
on avait des significatifs mais pas
en termes de scale comme les autres
scale les large onglette model scale les allunis
on avait pas ça
et marx et qu'un annoncé publiquement
on est allé quand même assez gros là dessus maintenant
et donc de toute façon on va bénéficier du scale
ligne
en pré-training notamment pour la ma 4
par définition juste la quantité
d'énergie de pensée vers supérieure
donc on peut s'attendre à des améliorations
t'as parlé de marx et qu'il y a pas justement
c'est intéressant je trouve quand on l'écoute
dans des interviews qui qu'on interroge
sur ça sur le sur le lien sur le sur le
sur le les modèles de langage etc
il a l'air
assez affûté quand même c'est à dire que
il a l'air de bien connaître ce dossier en particulier
je sais pas si c'est le cas de tous ces projets internaits
mais à quel point vous
dans les équipes ça vous arrive de le voir
ou de le coutoyer ou de
à quel point il est au courant aussi
écoute on le voit pas tous les jours
mais non il est très au courant c'est son sujet
je pense intérêt principal
un de ces sujets
je peux dire que cet été il était passé à paris
il était passé par l'Elysée
avant de nous...
il est arrivé il est reparti
il avait pas le temps de rester
on l'a retrouvé dans un restaurant à minuit
où il s'est posé de minuit à 4h30 du matin
avec 8 chercheurs à qui posaient des questions
sur la main, en gros
et il était très très technique
et on le détaille
et derrière tu le retrouves dans un podcast aux états unis
et il parle d'IA pendant une heure
en fait c'est la discussion que ça vient d'un bar parisien
je peux te dire qu'on était un peu à 2h30
on commence à s'amnoler
c'est hyper ouf
on a parlé des grands acteurs
OpenIA et Microsoft
des plus petits mistrales
je suis curieux d'avoir ton avis
justement c'est quoi
aujourd'hui les spécialités
ou si tu devais donner des rôles
à OpenIA et même Anthropique on en a pas parlé
mais aujourd'hui moi ce que j'utilise c'est
Sonet 3.5 par exemple
elle veut pas pareil
c'est pas une si grosse boîte que ça
Anthropique
et même Google c'est comment tu vois
justement si tu devais donner des rôles
aux différents acteurs
écoute
non j'ai pas envie de me faire trop d'ennemis non plus
tu peux piquer
OpenIA ils ont été leaders pendant très longtemps
ils le sont encore mais Anthropique est revenu très très fort
c'est assez impressionnant
curieux de voir ce que ça va donner entre les deux
et ils sont
enfin Anthropique qui en plus est un fork
d'OpenIA
Anthropique c'était vraiment
un peu Monsieur Safety pendant très longtemps
ça l'est toujours mais peut-être un peu moins
un peu plus produit, un peu plus business
nous nos modèles
ils sont pas dangereux
qu'est ce qu'ils ont fait
ils ont fait des sortes de consortium
de okahou il y a de vie
rogue et prend le contrôle
de nos vies
quand je dis qu'ils le sont moins
ils le sont toujours beaucoup
ils le sont vraiment
ils le sont sincèrement chance
mais ils ont bien accéléré
par rapport à OpenIA
Google c'est dur
parce qu'ils ont vraiment
c'est un peu le monstre gigantesque
à 3000 chercheurs
beaucoup de bureaucracie
énormément de talent
et ça prend pas
ils seraient pas très contents que je sa
personne utilise beaucoup géménique
il y a eu de petits progrès
leurs modèles sont bons
mais
tu sais à mes très clairs on l'a utilisé
sur des benchmarks
tu vois au moment où ils ne marchent pas du tout
je sais pas
là où OpenIA
c'est pas moi gp t4
ils vont continuer de l'améliorer
mais combien de benchmarks
j'ai testé gp t4
qu'un modèle qui a plus de deux ans d'existence
en fait ils avaient gp t4 en interne
quand nous on a sorti la ma 2
tu vois le gap
et combien de benchmarks
gp t4 continue d'être très très bon
et à l'art
sur des benchmarks qui ont été créés après la sortie du modèle
c'est là où tu vois la force
et les mecs ont pas overfité
et c'est là où c'est moins clair pour d'autres
ben c'est justement
tout ce lien entre
les concurrents et les benchmarks
est super intéressant je trouve
parce que
c'est assez unique
un domaine où on n'est pas
capable de mesurer le progrès
de manière fiable
à peu près tout le reste des domaines de la vie
on sait te dire si tu as bien progressé ou pas
là tu peux bosser sur un truc pendant
6 mois avec 30 personnes
et tu ne t'auras jamais la garantie que
c'est mieux ou moins bien de manière objective
est-ce que tu peux nous
justement nous parler de pourquoi
c'est le cas
et est-ce que ce sera résolu un jour
ou est-ce qu'on sera toujours condamné
à faire confiance à l'instinct
j'ai un mélange de différentes réponses
d'abord il y a un autre domaine c'est l'intelligence humaine
on a beaucoup de mal à mesurer l'intelligence humaine
on sait pas trop ce que c'est
donc finalement c'est pas si logique
qu'on ait du mal à mesurer l'intelligence de l'IA
après le
le sujet c'est que
c'est tellement multi aspect, multi axe
qu'il y en a peut-être un qui est meilleur
en reasoning, l'autre en maths, l'autre en long contexte
et donc aujourd'hui il n'y a pas un grand leader
malgré tout
tout cela se utilise un peu les mêmes approches
converges, on dirait des résultats plus ou moins similaires
à peu de choses près, je pense que c'était assez acquis
que Claude était meilleur en code
que
Google était pas mauvais en long contexte
en multimodal, voilà des trucs comme ça
après le truc c'est que la génération d'après
et ça va tellement, attends, la maths 2 c'est sorti
il y a moins d'un an et demi
c'est dingue
moi je suis un moins d'un que ça fait 10 ans
du coup ça va aussi tellement vite
qu'un mois plus tard ce qui était vrai ne l'est plus
et ça c'est un truc depuis
moi je sais que j'ai toujours dit c'est ça change tellement vite
aujourd'hui il y en a un qui est moins bien vu que l'autre
c'est un 6 mois ça sera l'inverse
attendons de voir, je suis très curieux de voir
d'ailleurs où ça va nous mener
mais du coup il y a aussi ça qui joue
attendons que ça plateau un peu
si ça plateau c'est pas gagné
que ça
se stabilise, on va peut-être voir aussi
des...
il y a un peu de ça
et puis l'autre chose c'est
quand on parle de capacité surhumaine
c'est pas toujours évident encore
parce qu'aujourd'hui pour expliquer un peu
un benchmark concrètement c'est une série
de questions
et on évalue la
la réponse qui tombe dans la bonne case entre guillemets
donc vraiment si vous zoomz
dans certains... ils sont pas tous construits
pareil mais dans certains benchmarks
c'est vraiment des QCM ou des choses comme ça
et ce qui se passe
c'est que certains
peut-être
ou inconsciemment
ont des données
de benchmarks qui viennent polluer
leur données d'entraînement
qui fait qu'un modèle paraît super fort
au benchmark, on peut faire un super slide avec tout au max
et en fait à l'épreuve de l'intuition
de juste la discussion
on voit qu'il est nul quoi
Exactement et j'ai aidé des exemples
où le modèle
le benchmark a eu une erreur dans une question
je vois que mon modèle a faux, je regarde
mon modèle a bon
le benchmark a été mal anoté, ça arrive pour des...
et en fait le modèle de la concurrence
avait bon
ça veut dire qu'il a bien été entraîné dessus
et bon
il fait ce qu'ils l'ont fait exprès
c'est un fait
c'est comme un warren canary
je sais pas si vous voyez
un petit indice
qu'on laisse
dans les conditions générales par exemple
pour dire qu'on a pas été percussionnés
par exemple
et là ce serait la même chose pour un benchmark
on laisse une question fausse exprès
pour vérifier si t'as pas overfité le...
ah c'est très bon ça
j'ai pas si le fonds pour...
je pense qu'ils le font pas exprès
mais en tout cas c'est pratique
euh...
non mais moi je crois que j'ai vraiment commencé à avoir...
désolé on t'essore
moi j'ai une petite question
mais un peu précise sur un point
c'est sur la loi de Chinchilla
donc c'est une...
une loi un peu empirique
pour savoir
à un moment où on se demandait à ce que ça vaut le coup
de mettre de plus en plus de paramètres
de faire des modèles de plus en plus gros
ou alors d'utiliser
de plus de données d'entraînement
et vu que vous c'est surtout... enfin
on vous connaît notamment parce que vos petits modèles
ils sont très efficaces parfois ils ont même atteint
l'efficacité de certains plus gros modèles
c'est quoi un peu votre conclusion
pour faire un...
c'est quoi votre conclusion sur cette loi un peu empirique
il vaut mieux
partir sur des très gros modèles
ou en fait entraîner
sur beaucoup de données en pré-training
c'est très efficace
alors en fait ça c'est... quand GPT3 est sorti
ils ont fait l'analyse des scanning laws
et ce qu'ils disent c'est ben d'après nous
en gros si on augmente le nombre de data
ça a un impact moins gros que d'augmenter la taille du modèle
ok
Chinchilla sort en disant bah nous en fait on vous dit le contraire
et probablement Coppena il fait des erreurs
il avait fait d'erreurs dans le scan du leur
en gros ils n'avaient pas adapté leurs paramètres dans l'entraînement
effectivement d'ailleurs je...
il me semble de ce que je sais qu'il s'en était rendu compte
avant que Chinchilla sorte
juste qu'il n'avait pas dit
et donc Chinchilla dit
en gros il y a un paramètre optimal
entre le ratio entre... pour un compute
donné j'ai tant de GPU pendant tant de jours
en gros plus j'ai la taille de modèle
grosse plus ça me prend du compute
plus j'ai de données à entraîner plus ça me prend du compute
mais en fait j'ai une balance
parfaite pour avoir le meilleur résultat possible
pour mon compute donné
et nous ce qu'on a dit avec Lama c'est
ok c'est super si tu veux un papier de recherche
comme Chinchilla que tu vas jamais réaliser ton modèle
et que personne va s'en servir
pour avoir la meilleure performance
absolue dans ton tableau
mais ça c'est le coût
de compute à l'entraînement
c'est-à-dire si tu veux que ton modèle soit utilisé
notamment à Métain on a des milliards du 7 ans dans le produit
il y a le coût à l'inférence
et l'inférence
il y a 2 dimensions de scaling
le nombre de données sur lesquelles tu es entraîné
et la taille du modèle
il se trouve que la taille du modèle c'est une constante
à l'inférence ça va te coûter
plus le modèle est gros plus ça va coûter cher
par contre le nombre de données sur lesquelles tu t'entraînes
ça tombe que tu t'entraînes sur 1000 ou sur 1 milliard de données
tu t'en fiches à l'inférence
donc en fait ce qu'on dit c'est
on s'en fiche je Chinchilla
c'est intéressant en terme de recherche
mais le niveau complet
elle est complètement au-delà qui t'a
avoir utilisé du compute où tu aurais pu avoir un meilleur modèle
pour ton tableau
mais par contre à l'inférence ton modèle il va être super bon
ok super intéressant
oui effectivement
donc en fait le pur rendement
du training n'est pas optimal
mais en échange
à l'inférence c'est pour ça que ça peut tourner
sur mon Mac alors que
Chinchilla non
trop cool
est-ce qu'il nous reste des questions
mais moi je crois pas
je pense qu'on est pas mal
merci vraiment c'était trop intéressant
si si petite dernière question
sans tabou c'est quoi le modèle que toi
tu utilises dans la vraie vie au quotidien
j'en utilise 2
notre modèle
la matron
qui s'appelle metamate on a un outil
au sein de metamate
et au an
ok ça marche
donc c'est aussi bien de pouvoir benchmarker
la concurrence ou voir ce qui marche bien
exactement
je fais tout sans les deux et je regarde un peu
et j'adapte
mais sans un net 3.5 il y a vraiment aussi impressionnant je trouve
il laisse c'est juste que
tu peux pas tout utiliser non plus
oui et puis c'était galère c'est moins facile d'accès
ok
moi je sais que typiquement en style
simplement de quand tu veux
te faire
corriger de l'écriture par exemple ou trouver des idées créatives
je trouve que c'est eux qui ont un
grand avance
dans mon quotidien j'utilise plus du code
ou faire un résumé très précis
d'un petit texte que j'ai écrit à la hache
d'où le fait que j'utilise plutôt
ça marche
c'est vraiment fonction de tes usages
je pense que ta raison par contre pour du style
il doit être très très bon
merci énormément de ta présence
c'était vraiment trop intéressant
on quitte Lillia pour entrer dans le monde merveilleux
de apple
et de la virtualisation
de trucs
de mots qui vont d'habitude pas forcément toujours ensemble
c'est pas quand même les plus connus pour ça
et pourtant il y a des choses hyper intéressantes justement
à raconter
notamment à propos de cette machine de l'iPad
et pour ça on reçoit Paul Viel
ça va ?
bienvenue sur le plateau
les très contents à voir
comme vous pouvez le voir ce petit logo
c'est la deuxième fois qu'on a quelqu'un de chez Cine Actif
troisième
oui mais oui je suis conçue
ça te cesse
4ème, techniquement
comment ça avoir un petit abonnement
peut-être qu'on pourrait imaginer directement
un partenariat
des tg vériguliers qui viennent nous amener
plus sérieusement avant qu'on va entrer
évidemment dans le vif du sujet
est-ce que tu veux nous raconter un peu
c'est quoi ton vrai métier entre guillemets
tu travailles donc dans le reverse engineering
et à la base t'es 1g
réseau et télécom
est-ce que tu peux nous raconter un peu c'est quoi ton métier ?
oui bah déjà j'ai un diplôme d'ingé et télécom
mais parce que de toute façon
il n'y a aucune vraie formation
classique qui va former au reverse engineering
moi mon métier concrètement
c'est faire de la recharge de vulnérabilité
donc on a
soit un produit physique
soit un produit complètement software
et l'objectif va être
d'analyser son le produit
pour voir comment il fonctionne
et une fois qu'on sait comment il fonctionne
on va essayer de trouver des vulnérabilités dedans
en amont de la chaîne pour essayer
d'éviter que les hackers puissent les trouver par derrière
en sachant qu'en plus le reverse
dont tu parles est assez spécifique
dans le sens où il y a d'autres types
de rétro-ingénieries
par exemple
pour copier
ça existe où tu achètes un produit de la concurrence
tu veux comprendre comment il marche
en fait c'est un domaine qui n'est pas que
dans la sécurité ça qui est marrant
oui complètement on peut faire du reverse
à but d'interrobérabilité
on peut faire du reverse aussi
à but de comprendre comment fonctionne un malware
et du coup il y a plusieurs manières
de faire ce... enfin plusieurs objectifs
qui sont possibles
oui c'est vrai que même dans la cyber tu peux... enfin reverse du malware
ou du logiciel
plus classique de vulnérabilité c'est pas la même chose
ouais c'est de travail qui sont assez différents
et d'ailleurs nous quand on passe
de l'un à l'autre on passe peu de l'un à l'autre
mais il faut un temps d'adaptation parce que
c'est des compétences assez différentes
mais dans quelle instance pour... enfin ils codent pas pareil
c'est un logiciel un malware
oui d'une part parce que déjà
l'objectif d'un malware c'est
que ça soit compliqué à reverse
donc déjà il y a toute cette partie là
de des autres plus qu'il code, de comprendre un peu ce qui fonctionne
et ensuite nous il y a
une étape en plus qui est une fois qu'on a compris
comment ça fonctionne il faut trouver les vulnérabilités
oui oui
ça peut être un travail qui se fait en deux étapes
une première partie de reverse
pour savoir comment ça fonctionne
et une deuxième partie de recharge de vulné
mais pour le coup c'est spécifique à vous
parce qu'il y en a qui font juste du reverse pour comprendre comment ça marche
et tout va bien après
il n'y a pas de vulné
je vous propose qu'on rentre un peu dans le vif du sujet
et je vais vous présenter
ce qui nous réunit aujourd'hui
c'est cette petite machine
l'iPad Pro
c'est un appm mais vous avez compris
il y a un truc que les gens réalisent pas forcément
c'est que c'est une bête de course
dans le sens où, en termes de
depuis notamment l'arrivée des puces
Apple Silicon à l'intérieur
c'est un peu débile
la puissance de calcul
qui se trouve dans ce petit objet
donc les M1
M2M4
je crois que le dernier elle est le plus M4
peut-être que je me trompe
peut-être qu'on ne s'est pas encore sorti
les plus M4 ont été introduits
par l'iPad en premier il me semble
je ne dis pas de bêtises
je ne sais plus mais en tout cas c'est tout frais
et donc
il y a toujours
ce côté un peu disproportionné
des capacités de cette petite
feuille de verre
versus ce qu'on peut vraiment
faire avec
puisque on est évidemment
Apple bride ce matériel
jusqu'à ce qu'il y a
un moment il y a une petite équipe
qui s'appelle UTM
qui mette à disposition un logiciel
assez particulier donc on va vous expliquer
ce qui fait
mais qui d'une certaine mesure pourrait vous permettre
vous qui avez éventuellement un iPad
de
le transformer à une machine bien plus utile
bien plus intéressante et ces produits
ont ensuite une sorte de bras de fer assez marrant
entre Apple qui n'aime pas trop qu'on bidouille comme ça
avec leur machine et les équipes du UTM
et d'autres de la communauté du Géalberg
notamment dont on parlait un petit peu
et on avait
eu l'idée justement de ne pas être sujet
aussi comme un prétexte
pour comprendre un peu mieux
un thème qu'on va
développer qui est la virtualisation
et donc ce que je te propose
c'est de rentrer dans le vif du sujet
déjà pour commencer
pourquoi, qui est un peu vaste
mais pourquoi l'iPad est bridée par Apple
qu'en gros ça veut dire quoi
on t'en dit que cette machine est un peu bridée pour ce que c'est
quoi ?
Ouais qu'est ce que ça veut dire ? Alors déjà Apple du coup
ils contrôlent, ils essaient de contrôler
le maximum de choses
du coup déjà niveau hardware
ils contrôlent, comme tu le dis c'est l'orpus M
qui fabrique
ils contrôlent le logiciel
et du coup ils essaient de contrôler
un maximum de choses
ils essaient aussi du coup de contrôler
ce que les utilisateurs peuvent faire dessus
et donc à ce cadre là
par défaut on n'est pas administrateur
de sa machine donc sur un iPhone
on a la possibilité d'installer des applications
qui ont été choisies par Apple
et on n'a pas la possibilité
d'être administrateur, d'installer des applications qu'on veut
c'est dans ce cadre là qui nous bride
Et alors ça typiquement
c'est pour la phase immergée
mais très concrètement quand on dit ne pas être administrateur
plus techniquement
ça veut dire quoi ? Donc par exemple
là où sur mon ordi je peux créer des fichiers
là où je veux aller modifier un peu ce que je veux
dans le OS, enfin dans certains OS on va dire
là par exemple c'est pas le cas
Non non alors
il faut voir qu'on peut voir
le dashboard
d'un iPhone comme une application en soi
et donc on est contraint dans cette application là
on n'a pas la possibilité
d'écrire du code, d'exécuter du code
on est pas mal contraint
et du coup concrètement
qu'est-ce qu'on peut pas faire
c'est qu'on peut pas se connecter
en tant que l'utilisateur route
parce que du coup, iOS derrière
c'est dérivé de toute la famille unix
et du coup l'utilisateur privilégié
généralement sur cette famille là
de système d'exploitation c'est
l'utilisateur route et donc
il nous permet pas de se connecter en tant que route
du coup il n'y a que cet utilisateur
qui peut faire des actions privilégiées
et nous on n'y a pas accès
Il y a aussi un autre
problème entre guillemets
un autre sujet c'est l'OS lui-même
iOS
n'est pas un système conçu pour
un ordinateur à l'origine
c'est pas comme un Linux typiquement ou macOS etc
où on va pouvoir exécuter
des programmes complexes
et qui sont faits justement
pour tirer parti de
cette puce puissante etc
mais là encore
on n'est pas nécessairement coincé
sur un OS type
Android par exemple
on a relativement facilement la possibilité
d'installer ce qu'on appelle des machines virtuelles
mais sur iOS
ça n'a jamais été simple
jusqu'à ce que UTM arrive justement
est-ce que tu veux bien nous expliquer
dans trait de juste c'est quoi une machine
virtuelle, c'est quoi l'intérêt
surtout pour un OS comme iOS
et après on
arrivera sur UTM
Oui alors le principe de base
d'une machine virtuelle c'est que
sur notre machine physique on va pouvoir
faire tourner des systèmes d'exploitation qui sont différents
et du coup
il y a plein d'intérêt à ça
qui vont être si jamais on a
une application
que Apple ne permet pas d'installer
on va pouvoir l'installer sur
cet autre système d'exploitation
en plus de ça
étant donné que là pour le coup
on va faire démarrer un système d'exploitation
où on va être administrateur dessus
là cette fois-ci on va pouvoir
faire un peu ce qu'on veut dessus
donc de cette manière là
on contrôle ce qu'on fait
ça nous débloque pas mal de fonctionnalités
et ensuite il y a plein
d'applications à ça donc la plus
commune est celle qui est la première motivation
généralement c'est du restro gaming
où les gens ils aiment bien aller
faire
exécuter des vieux jeux
qui sont disponibles que sur des vieilles consoles
et la seule manière de le faire tourner
généralement c'est via des machines virtuelles
et j'imagine qu'il y a des applications
moins triviales entre guillemets
toi par exemple, dans ton travail
tu as aussi besoin de machines virtuelles
ouais alors ça permet
aussi d'exécuter du code
dont on fait pas confiance
sur une machine qui est complètement dédiée
quand on va faire de l'analyse de malware
on va pas la lancer sur notre machine
parce que sinon on va qu'on promette notre machine
donc là ça permet d'avoir un environnement
que l'on contrôle complètement
ou si jamais il se passe n'importe quoi
c'est pas grave on peut arrêter la machine
et on redémarre une nouvelle
ça permet aussi, nous dans le travail
ça peut arriver qu'il y ait des logiciels
qui ne soient codés que pour une seule plateforme sphécifique
nous au travail on travaille sur Linux
et il y a plein d'applications
qui ne sont disponibles que sur Windows
donc quand on a besoin de ce genre de choses
on démarre une machine virtuelle Windows
on exécute notre programme
et dès que c'est fini on peut arrêter la machine
sans avoir eu besoin de redémarrer
sur un autre OS
et ce qui a d'usage en particulier
est carrément pertinent quand on parle
justement d'IOS
ou aujourd'hui si tu veux ouvrir
je sais pas moi premier pro
si tu as une version limitée sur l'app Store
mais en gros si tu veux le vrai
tu n'aurais pas d'autre choix
que de passer par un système comme ça
ou tu démarres un OS virtualisé
type Windows ou Linux
pour démarrer des logiciels complexes
de ce genre
le concept je peux être assez
contradictif mais je trouve que
rien que montrer des images
aux gens où tu vois un iPad
avec Windows qui boot
tu sais il y a un truc que ça fait un bug
dans le cerveau un petit peu
explique-nous justement c'est quoi cet appli
qui s'appelle UTM
qui est arrivé il y a quelques années
et qui a rendu cette
chose possible et les images
que vous êtes en train de voir
c'est quoi un peu l'historique
de ce projet là ?
Alors l'historique de ce projet là
ça a commencé en 2019 il me semble UTM
et quand
le développeur
d'ailleurs on parle d'une équipe mais c'est majoritairement
un développeur qui fait UTM
ensuite il y a pas mal de personnes qui l'aide
qui font des commits étant donné que c'est un projet
open source mais derrière c'est principalement
une personne qui développe le projet
et du coup le point de départ
c'est déjà de voir
comment est-ce qu'on fait pour démarrer
une machine virtuelle il y a plusieurs technologiques
qui existent qui permettent de faire ce genre de
choses là et donc il a déjà vu du falloir
choisir une technologie
et voir toutes les contraintes qui sont liées
à cette technologie parce que
comme on le disait étant donné qu'Apple
bride ses utilisateurs
si jamais on veut faire
une application qui permet de faire ce genre de
choses il faut potentiellement
contourner certaines restrictions
Et donc si mes souvenirs sont bons
en fait il n'a pas inventé
un système de gestion de machine
virtuelle il s'est basé sur un autre
mot que peut-être certains
connaissent c'est quému
C'est quoi quému parce que
je l'ai entendu régulièrement parler
mais pareil si tu veux nous expliquer
qui est derrière ça et
pourquoi c'est aussi
connu comme
projet Alors quému
je pense que c'est un des plus gros
projets pour faire
tout ce travail de machine virtuelle
c'est un projet qui a été
démarré par un français
au début des années 2000
2003-2004
c'est du coup
c'est lui qui a démarré le projet
maintenant ça est énormément grossi
alors je sais pas quelle structure
je dirais digue derrière maintenant mais c'est un
très très gros projet avec une très grosse base
de code qui est complètement open source et donc
tout le monde peut contribuer
et l'idée derrière le projet c'était d'essayer
de rendre les machines virtuelles
complètement modulables pour pouvoir
faire des machines virtuelles
avec n'importe quel type de processeur
et en plus ou moins
n'importe quel langage
de programmation et du coup
c'est ce qu'ils ont réussi à faire
ou maintenant grâce à ce projet là
c'est relativement facile
de le faire tourner sur un nouveau
type de processeur
et donc ils ont fait tout un travail pour
faciliter
toute cette histoire-là
Pour expliquer un peu le travail
d'un outil comme quémus
sans rentrer évidemment trop dans le détail
mais globalement
les processeurs parlent un peu des langues différentes
et que lui c'est
une sorte de traducteur
Est-ce que
toi tu utilises quoi comme image
pour expliquer ce que fait quémus
Ce que fait quémus,
déjà il faut partir sur
comment fonctionne un peu la virtualisation
et les deux grands types
de manière de faire des machines virtuelles
Quand on a besoin
de faire une machine virtuelle
il y a deux manières de le faire
la première ça va être de simuler
complètement le fonctionnement du processeur
du coup on va analyser comment il fonctionne
on va reproduire tout ça en code
et dans ce logiciel là on va lui injecter
le code qu'on veut exécuter
donc ça c'est ce qu'on va appeler de l'émulation
et donc on va
complètement simuler tout ce que va faire
un processeur donc ça ça marche vachement bien
grâce à ça
on va pouvoir reproduire le fonctionnement
de n'importe quel processeur
déjà ça c'est pas intuitif
le fait que
juste un processeur qui est un circuit électronique
va être répliqué en code
pour qu'il tourne sur un autre circuit électronique
en vrai déjà il y a un truc assez curieux
oui en fait c'est que
quand on commence à regarder vraiment
le fonctionnement
concret d'un processeur
ça reste juste une unité de calcul
qui va exécuter des instructions
les unes à la suite des autres
il va faire des opérations mathématiques
avec des bouts de mémoire
il va stocker des trucs dans la mémoire
et du coup tout ça c'est des choses qu'on sait faire
en code on peut très bien se créer
une structure
qui contient des bouts de mémoire dans lesquels on va pouvoir lire et écrire des trucs
il va prendre
des instructions les unes à la suite des autres
et effectuer le travail
associé à chaque instruction
et du coup juste en expliquant
ce genre de choses là on a moyen de voir
que c'est des choses qu'on sait faire
en programmation et donc
on a moyen de répliquer le fonctionnement
du hardware
donc en fait le programme qui rentre là-dedans
lui il a l'impression
de tourner sur un autre processeur
que celui sur lequel il tourne en fait
concrètement le programme
pour lui les instructions
elles sont exécutées pour lui il n'y a pas trop de soucis
alors ça va moins vite que sur un du vrai hardware
dû à plein de soucis
mais en tout cas le programme
il a
c'est compliqué de voir
qu'il tourne dans une machine virtuelle
et ça c'est ce que font toutes les consoles
les éliminateurs de vieilles consoles
qu'on peut retrouver je sais pas si on veut jouer à la Gamecube
et tout en fait c'est ça
ils ont analysé comment fonctionne le processeur de la Gamecube
et ils ont émulé
dans un émulateur
oui c'est exactement ça parce que
la grosse problématique ça va être
quand on va vouloir
utiliser une machine virtuelle
qu'un autre type de processeur que notre machine à nous
et là quand on est dans ce cas là
on n'a quasi aucun autre moyen
que de répliquer le fonctionnement
du vieux processeur pour
faire tourner les codes qu'on veut dessus
si je me souviens de ce dont apparaît c'est
l'émulation
qui est donc différent d'un autre truc
qui s'appelle la virtualisation
et donc c'est un peu les deux
options qu'on a quand on veut
simuler un processeur
de mémoire l'émulation
c'est à peu près inutilisable
pour quoi que ce soit un peu gourmand
en termes de ressources parce que c'est extrêmement lent
oui c'est ça
ça marche très bien quand on veut
émuler des vieilles consoles
parce que le progrès technologique a fait
que nos processeurs sont tellement
performants aujourd'hui
qu'ils peuvent très bien faire tourner des vieilles consoles
maintenant si sur un ordinateur actuel
on veut lancer une machine virtuelle
avec un processeur actuel
là on divise
le temps
par beaucoup beaucoup parce que pour chaque ligne de code
que notre émulateur va exécuter
derrière il faut qu'il y ait toutes les
lignes de code de la machine virtuelle
et toutes les lignes de code du système d'exploitation
qui est en dessous et donc factuellement on va diviser
la vitesse de calcul
et actuellement
si vous installez UTM sur votre iPad
je crois que ça dépend des machines etc
de la configuration que vous choisissez
mais il est possible que
justement vous voyiez
effectivement par exemple un logo Windows
mais que ça mette par exemple
5 minutes à charger et que ce soit absolument
inutilisable
ça veut dire que derrière c'est de l'émulation
qui est en cours et donc
en gros
c'est nul
encore 5 minutes, tu es presque gentil
en fonction des machines qu'on a
et du coup voilà, UTM c'est une application
qui est disponible sur l'App Store
on peut la télécharger, on peut télécharger
une machine virtuelle pour elle mais derrière
ça va être que de l'émulation donc ça va
mettre très longtemps à démarrer
mais justement il n'y a pas que l'émulation
notre truc ça s'appelle la virtualisation
et qui vient complètement résoudre ce problème
est-ce que tu peux nous expliquer ce que c'est ?
le principe de base de la virtualisation
c'est de se dire
si jamais je veux utiliser une machine virtuelle
qui a le même type de processeur
que mon processeur à moi
pourquoi pas faire exécuter le code
de la machine virtuelle sur mon processeur
et donc pour ça
les développeurs de processeurs
ils ont créé différentes manières
différentes modes de fonctionnement du processeur
le processeur
il peut fonctionner dans un mode normal
pour exécuter
notre système d'exploitation
et notre système d'exploitation
va pouvoir dire au processeur
de rentrer dans un mode de VM
et donc à partir de là le processeur
il est dans un mode de VM
il va pouvoir exécuter le code de notre VM
à la même vitesse que
notre système d'exploitation à nous
et ensuite dès que la VM
elle va faire des actions qui sont sensibles
donc dès qu'il va accéder
à de la mémoire dont il n'a pas le droit
dès qu'il va exécuter des instructions
dont il n'a pas le droit
et là ça va le sortir du mode de VM
et ça va redonner la main
à notre système d'exploitation qui va devoir
gérer ce qu'on appelle une interruption
et donc savoir est-ce que la machine virtuelle
avait le droit de faire ce qu'elle a essayé de faire
auquel cas je vais le faire pour elle
et lui redonner la main
ou est-ce qu'elle avait pas le droit et donc je l'arrête
et on peut espérer quoi
comme type de performance
par rapport à une machine normale
là on se retrouve quasiment
avec des mêmes performances
que notre machine à nous
alors la seule différence va être
étant donné qu'on a deux systèmes d'exploitation
qui tournent sur la même machine
où on divise presque par deux
la vitesse de calcul
mais c'est globalement tout
et donc ça reste largement utilisable
En gros on utilise
on met de côté les capacités
d'émulation et de faire cette histoire
de traduction quoi enfin d'émulation
mais on garde le bénéfice
d'avoir un environnement cloisonné
où on peut tourner un autre
système d'exploitation parallèle
Ouais parce que du coup quand le processeur
il va être dans ce mode de
VM
il est complètement bridé
donc là il est bridé niveau hardware
et dès qu'il va essayer de faire une action
qu'il a pas le droit
ça va le sortir de ce mode là et ça redonner la main
au système d'exploitation de base
si on en revient à l'iPad justement
qu'est-ce qui est nouveau
au moment où Apple annonce
qui vont mettre une puce
Apple Silicon donc M1
en avance c'était aussi de la puce silicon
Qu'est-ce qui change
au moment où ils mettent une puce M1
spécifiquement dans l'iPad
sur cette question de la virtualisation
La grosse différence c'est que à partir des puces M1
les puces ça va faire de la virtualisation
alors qu'avant c'était pas prévu
et ça va pas le faire
donc à partir des puces M1
il y a la possibilité niveau matériel
de le faire
Et pourtant ça va pas nécessairement dire
que ça va pas nécessairement
dire que ça va être possible entre guillemets
de ce que j'ai compris
à partir du moment où
les premiers iPad
de ce type là sont disponibles
les versions du TM
sont instantanément
capables de faire de la virtualisation
sans avoir
à m'agouiller à faire des trucs un peu particuliers
c'est ce que j'ai compris
C'est le cas ?
C'est parce que du coup
Apple
les puces M
c'est globalement les mêmes sur le Mac
et sur les iPad
et du coup les deux
ont le même mode de fonctionnement
c'est la même manière
de rentrer dans ce mode de virtualisation
et du coup
ça veut dire que normalement
si jamais on est administrateur sur un iPad
on a la possibilité de faire les mêmes actions
sur un Mac ou sur un iPad
et donc de rentrer dans ce mode de virtualisation
et en plus de ça
Apple
sur les iPad fournit
une base de code qui permet de faciliter
tout ça
ou quand on va
développer notre code
on peut appeler les fonctions d'Apple pour créer une machine
virtuelle, lancer une machine virtuelle, l'arrêter et tout ça
Donc ça c'est
dans l'iPad ? C'est dispo direct ?
C'est dispo dans l'iPhone
dans le Mac
dans le Mac
donc ça dans le Mac il permet de le faire
et donc à partir du moment
où cette puce
arrive dans l'iPad
il y a toute la base de code qui permet de faire
ce genre de choses donc on peut le faire
avec le souci
qu'il faut être administrateur sur la machine
Moi j'ai entendu
parler typiquement du fait que
Apple n'était pas
100% fan quand même qu'on fasse ça
et que donc
le framework
qui permet de faire ça de faire tomber
l'évm
hypervisor framework
n'est pas dispo de base
sur la machine
Il n'est pas dispo de base mais du coup
étant donné qu'il est dispo sur
un macOS qui
utilise la même puce derrière
on peut complètement le récupérer d'un Mac
Mais ça c'est marrant
T'as ton iPad
T'ouvre ton Mac à côté
tu vas récupérer le petit bout de code dans le système
copier coller à l'intérieur
et ça marche quoi
Direct. Oui, étant donné que c'est le même
processeur derrière on peut faire
fonctionner du code le même code sur
un Mac ou sur iPad
Et donc
j'ai vu les premières
démos et il y a un côté
très satisfaisant
avoir pour le coup des OS
qui ne mettent pas 5 minutes à des mains
mais des Windows, même des Windows
relativement récents, des versions de macOS
tu vois, mac complet
tourner sur ton iPad
et des Yosemite
à l'époque c'était ce genre de version
et je me rappelle que c'était assez
hallucinant quoi
de voir qu'à quasi plein de vitesse
tu pouvais
faire ton nez, des safaris, des Final Cut
des trucs comme ça c'est assez
magique quoi. Oui, parce que du coup
étant donné que c'est la même
pousse dans le Mac et dans l'iPad
du coup on a les mêmes performances
et donc on se retrouve avec des performances
assez incroyables dans un iPad qu'on
soupçonnait pas au départ. Mais pour y arriver
justement, il y a quand même un obstacle
de taille c'est ce que t'as expliqué
c'est cette histoire d'utilisateur route
et pour ça
vous connaissez forcément cette histoire
il faut de ce que j'ai compris
faire un jailbreak
Est-ce que tu pourrais expliquer du coup
à cette époque là justement
c'est quoi l'état
de la scène jailbreak comme on appelle
moi je me souviens que typiquement
suivant les versions
y'en avait, y'en avait pas
c'est devenu mort après y'avait
des renaissances parce que quelqu'un
trouvait un nouveau jailbreak c'est quoi
l'état de l'art à ce moment là à peu près ?
Déjà pour ça il faut comprendre
ce que c'est qu'un jailbreak
un jailbreak ce que c'est
c'est tout d'abord une vulnérabilité
dans ios
et à partir de cette vulnérabilité
on va réussir à désactiver
les protections qu'a mis en place Apple
pour nous brider
du coup il faut d'abord
trouver une vulnérabilité
ce qui est pas simple parce que
au début on n'a pas d'accès
privilégié, il faut trouver une vulnérabilité
en plus de ça
il y a plein de types de vulnérabilité
différentes qui vont nous donner plus
ou moins de privilège donc là il nous en faut
une qui permet, qui a des privilèges
assez hauts pour désactiver
les sécurité d'Apple
une fois qu'on a désactivé sécurité
d'Apple, bon bah là cette fois-ci
on a la possibilité de récupérer
un shell route
et donc à partir de là on est administrateur
de la machine et on fait un peu ce qu'on veut
mais du coup là à ce moment-là
on était en moment où on venait
de trouver une vulnérabilité
sur ios
et donc là plus ou moins
toutes les
appareils étaient gel breakables
à ce moment-là
C'est tombé plutôt très très bien
moi j'ai cru me souvenir
que justement il y avait
un peu des guerres de chapelles
je sais pas quel point tu es sur la scène gel break
mais des guerres entre différents développeurs
qui proposent des failles etc
moi j'ai toujours trouvé ça
assez fascinant
justement le fait que
des gel break apparaissent ou pas
et si j'avais bien compris
ça a aussi à voir avec le fait que
l'Apple s'est mis à rémunérer ces failles
et donc
là où avant le seul truc fun à faire
avec une faille de ios
c'était de la publier
je me rappelle même au tout début
gel break mi je sais pas si ça vous dit quelque chose
mais avec l'URL juste
tu pouvais aller dans des app stores
et faire un gel break sur à peu près toute la ranger
d'iPhone c'était génial
c'était le je rêverais que le plus rapide du monde
oui mais quel époque
et depuis
un autre truc qui a changé en particulier
c'est la complexité des failles qu'il faut trouver maintenant
mais aussi
des histoires pure de finance
ou en gros tu peux ici être rémunéré
par Apple pour ton travail
donc ça je...
maintenant chaque chercheur en sécurité
va pouvoir soit être rémunéré
par Apple soit pouvoir
aider la communauté à envoyer un gel break
et du coup ça devient plus en plus compliqué
d'avoir un gel break
à tel point que maintenant sur les derniers iPhone
sur les dernières versions d'iOS on a plus de gel break
et donc plus de moyens de devenir administrateur
de son iPhone
jusqu'à la prochaine peut-être
jusqu'à la prochaine donc on espère
donc pour l'instant il nous reste encore
des appareils sous dernière version
d'iOS qu'on peut de gel break
parce que là pour le coup
il y a une vulnéraïbité qui a été trouvée au niveau
de ce qu'on appelle le bootloader
donc c'est le tout premier code qui
qui démarre dans la machine
et c'est un code qu'on peut pas mettre à jour
donc là Apple n'a pas de moyens de mettre à jour
donc là sur ces appareils là on aura toujours
des gel break sauf que ces appareils là
ils vont pas forcément être mis à jour jusqu'à
Advitam et Tarnam
pour l'instant ils y sont jusqu'à iOS 18
mais par la suite on sait pas trop
mais ça c'est intéressant parce que on parle
d'utilisation
de moldues quoi
mais toi tu as quand même vraiment une question
professionnelle derrière de
pouvoir avoir cet accent administrateur
ça te donne la possibilité de
faire de l'étude
justement de vulnérabilité
toi c'est vraiment important
que ce soit possible de faire ça
Ouais bah quand on fait de la recharge de vulnérabilité
généralement on va essayer d'avoir le plus
de debug possible pour essayer
de comprendre bah d'abord quand on analyse
l'application est-ce qu'on a bien compris
ce qui se passe donc pour ça on va les vérifier
en débugant l'application, s'arrêtant à des endroits
stratégiques et pour faire ce genre de choses
il faut être administrateur de la machine
donc si on veut analyser
une application
on est obligé de faire
ce genre de choses et si on veut
analyser le fonctionnement d'iOS en lui-même
on est encore plus obligé
d'être administrateur
Et donc pour l'instant des vieux iPhone
je crois que l'iPhone X par exemple
sont encore jelbréquables ou des choses comme ça
C'est juste qu'à l'iPhone 8
sur les dernières versions d'iOS
et sinon c'est jusqu'à l'iPad
7ème génération
2017, date de sortie 2017
donc ça commence à remonter un peu
C'est vieux ?
Vous connaissez absolument par coeur le truc
parce que
à la prochaine mise à jour d'iOS
si justement ils sont obsolètes vous perdez le gel barric
et ça a des conséquences directes en gros
concrètement
et en plus de ça ça a d'autres contraintes
qui sont que Apple
étant donné qu'Apple contrôle le matériel
et développe ses puces
ils rajoutent des fonctionnalités
dans les puces elles-mêmes
et donc ils rajoutent des protections
dans les puces elles-mêmes
et donc là sur les derniers iPhone
on n'a aucun moyen de débuguer ce qui se passe
et de jouer avec ces protections-là
et de voir comment elles fonctionnent
En plus, ce que j'ai compris
je sais pas si c'est directement lié
mais ils aiment pas trop de base qu'on
ait des accès aussi profonds
dans le système
et typiquement
j'ai le souvenir d'une histoire
où il y a eu un procès
justement entre Apple et Corellium
je crois que c'est ça
parce qu'ils aiment pas trop
ce qu'ils faisaient avec leur OS
est-ce que tu peux nous expliquer
un petit peu c'est ça vers quoi déjà
si tu te souviens
Alors Corellium c'est
une entreprise israélienne
qui commercialise un produit pour faire
de l'émulation d'iPhone
du coup, ils commercialisent
un produit qui va nous permettre
d'émuler un iPhone et à l'intérieur
de faire tourner iOS
et donc étant donné qu'on l'émule
on contrôle complètement son fonctionnement
et donc là, par la force des choses
on est capable de le débugger
donc là c'est l'inverse de ce qu'on vient de dire
c'est pas démarrer Windows sur un iOS
c'est plutôt démarrer iOS sur un autre appareil
oui, c'est exactement ça
c'est une entreprise
enfin c'est la seule entreprise qui commercialise
ce genre de produit
et du coup, c'est des produits
qui nous intéressent beaucoup quand on veut faire
de la recharge de vulnérabilité parce que
il faut pouvoir débugger
ce genre de systèmes
et ils ont eu des problèmes ?
et ils ont eu des problèmes parce que Apple est pas fan
alors je connais pas la finalité du procès
mais en tous les cas
il y a eu des poursuites judiciaires, Apple a perdu
une première fois et la conclusion
c'est qu'ils ont passé un accord
ils ont fini par... c'est un peu le roussi je pense
donc ils ont fini par passer un accord qui est resté
confidentiel entre les deux boîtes
et ils ont arrêté de se poursuivre à ce moment
mais ils ont perdu en première
enfin je sais pas si on dit en première instance
aux Etats-Unis mais en tout cas
l'équivalent
ils ont perdu un premier procès Apple
oui, c'est un truc
qui tournait sur ta machine ou sur leur serveur ?
il y a plusieurs
niveaux
mais le premier niveau
d'abonnement c'est sur leur serveur
si on met quelques billets en plus
on peut avoir une machine déduée
on a pas l'air de la virtualisation
mais en fait
ce qui permet de faire
vraiment le... la fin de la magie
entre eux-gimmes et justement j'ai un peu moins du mal
à comprendre comment ça intervient
c'est un autre concept que j'ai aussi entendu
qui s'appelle le JIT
ou le just in time
est-ce que tu peux nous expliquer
ce que c'est et en quoi
ça justement
c'est une importance
dans le fait de faire tourner Windows
sur iOS
oui, alors le just in time
il va arriver quand on a besoin
de traduire du code assemblure
donc quand on va
par exemple sur Windows
je ne sais plus si le Windows
en version ARM fonctionne
mais dans tous les cas, toutes les machines
qui tournent Windows sont sur une architecture
qu'on appelle x86
la plupart des pc qui sont pas des Mac
sont sous x86
et du coup ça c'est une architecture processeur
et les IEPAD
ils sont sur une autre architecture qui s'appelle ARM
et du coup quand on va vouloir
faire cette étape
de virtualisation
il faut convertir le code de l'un en l'autre
pour pouvoir que notre processeur
puisse le faire
pour pouvoir faire ce genre de choses
on a des compilateurs
des compilateurs de code assemblure
pour passer d'un code assemblure à l'autre
et du coup il faut qu'on ait des endroits
dans la mémoire
où on va pouvoir à la fois écrire des données
et exécuter de la données
et c'est ça qu'on va appeler le JIT
c'est que pendant que l'application tourne
elle va
compiler du langage assemblure
et elle va l'exécuter derrière
et donc ça c'est des trucs qui ne sont pas faisables
sur un iPhone qui n'est pas de gel breaker
le fait
d'écrire de la donnée et de l'exécuter
il faut avoir des endroits en mémoire
on peut à la fois lire, écrire, exécuter
et ça normalement on n'a pas le droit de le faire
Ah oui c'est le trio
c'est impossible
de base on n'a pas le droit
il n'y a que safari qui peut faire ce genre de choses
parce que du coup c'est des contraintes
qui sont aussi applicables
sur le code javascript
qui est exécuté dans un navigateur
et du coup sur un iPhone il n'y a que safari
quel droit de créer ce genre de choses
c'est une exception
et alors je dis ça mais c'est plus vrai
depuis iOS 18
parce que maintenant Apple a eu de l'obligation
de pouvoir faire des pages de JIT
pour les autres navigateurs
parce que sinon il y avait une concurrence des loyales
vis-à-vis des autres navigateurs qui allaient moins vite
parce qu'ils avaient pas ces pages de JIT
du coup il faut une demande comment tu...
non mais du coup c'est pour ça que pendant des années
il y a eu que safari
on pouvait avoir que safari un navigateur sur un iPhone
depuis quelques années on peut avoir
un Firefox ou un Brave ou un machin
mais du coup c'est pour cette raison qu'il ne voulait pas ouvrir le JIT
et on peut faire une autre application
que safari
théoriquement tu as répondu
on aurait pu faire un navigateur
qui peut faire ton éco des pages préchargées
par exemple
non il peut exécuter du Javascript
mais il sera bien plus lent
tellement lent que oui ça serait inutilisable
mais effectivement j'avais jamais vu les dessous
de cette page
depuis récemment, depuis quelques années
on peut installer un autre navigateur sur un iPhone
et là il me semble que c'est que depuis iOS 18
les autres navigateurs ont le droit de faire du JIT
c'est hyper récent
ça fait partie du procès qu'ils ont eu
l'année dernière sur toutes les
non-concurrences
donc
avec la virtualisation
disponible sur le procès de l'iPad
plus le Just in Time
on se retrouve avec la capacité
si on est sur des bonnes versions d'iOS
qui sont maintenant un peu anciennes
donc là l'iPad que vous voyez
c'est un iPad que j'ai gardé
justement dans cette vieille version
qui est la 15.7 je crois
exprès
pour le jour où on allait parler de ce sujet
si toutes ces conditions sont réunies
on se retrouve avec
un iPad qui peut être
un quasi-ordi entre guillemets
jusqu'à ce que, si j'ai bien suivi
Apple signe la fin de la récré
et concrètement
rendre le Just in Time impossible
est-ce que j'ai vu notamment un tweet
un moment sur le Twitter du thème
Bad news, catastrophe
tout le monde déprimé
qu'est-ce qui s'est passé à ce moment-là ?
Alors ce qu'ils ont fait à ce moment-là
c'est qu'ils ont supprimé
le virtualisation framework
des
des iPad
et du coup au niveau du noyau
du iOS
il n'y a plus la possibilité d'utiliser
le virtualisation framework
qui permettait de créer des machines virtuelles
relativement facilement
et de les manager relativement facilement
du coup ils n'ont pas complètement
supprimé tout cette partie-là
parce que la puce en elle-même
elle est toujours capable de faire des machines virtuelles
mais pour faire ce genre de choses
il va falloir redevelopper tout le
virtualisation framework pour refaire tout ce qu'il faisait
et...
ça a été un travail titanesque quoi
comme je disais de tout à l'heure sur UTM
c'est une personne qui est toute seule
qui développe globalement le projet
c'est pas faisable quand on est tout seul
pour l'instant
je n'ai pas compris parce que du coup
ce composant-là
il est disponible sur Mac
il est toujours disponible sur Mac
on ne peut plus le copier sur iPad
parce qu'en fait
pour pouvoir créer une machine virtuelle
il faut être encore plus privilégié que route
il faut pouvoir exécuter du code au niveau de l'OS
du noyau de l'OS
et du coup quand j'avais mes différents niveaux
de fonctionnement de mon processeur
en réalité j'en ai 3
en réalité j'en ai encore plus mais
là dans notre exemple on va en prendre 3
il y a un premier niveau qui va être
niveau noyau d'IOS
il y a un deuxième niveau qui va être niveau
utilisateur IOS et un troisième niveau
qui va être niveau
niveau VM
et du coup là il faut pouvoir exécuter du code
en tant que le noyau IOS pour pouvoir
créer mes machines virtuelles
et donc en fait ce qu'a fait Apple c'est qu'ils ont
enlevé la possibilité
de le faire directement au niveau du noyau
donc on crée les fonctions
sont plus là quoi
donc là si on veut le faire il faut créer un driver
l'insérer dans le noyau
IOS pour pouvoir refaire ce genre de choses
donc en fait on peut toujours copier le composant
du Mac, le framework du Mac
mais ça marchera plus parce que derrière
ils ont coupé les
les ponts avec le noyau IOS
ce qui fait que peut-être comme
la switch à l'époque
où tout le monde s'arrachait les vieilles versions
qui étaient encore à câble
aujourd'hui si vous achetez que si vous avez un iPad
de la version IOS
peut-être que vous n'avez rien à foutre mais peut-être pas
il peut faire des choses
qui seront peut-être plus jamais possibles ensuite
ça c'est quand même marrant
mon iPad est collector
ne le mettez pas
exactement
il y a même des choses assez drôles où là on parlait
de tout ce qui est de gel break
et on a vu au un moment
des vulnérabilités
qui ne permettait pas d'avoir un gel break
mais qui permettait quand même d'installer
toutes les applications qu'on voulait
donc c'est le troll store
donc
qui a le nom
c'était pour dire on troll Apple
et la vulnérabilité
qu'ils ont trouvé c'était
dans la manière d'installer
des applications et du coup
sur ces versions
d'IOS spécifiques ils étaient capables d'installer
les applications qu'ils voulaient donc ils n'étaient pas administrateurs
mais ils pouvaient quand même instailler
les applications qu'ils voulaient
notamment des applications avec du JIT
donc là comme ça même sans gel break
sous certaines versions d'IOS
ça passe
donc quand on a un iPad
un vieux iPad faut regarder la version
spécifique et il peut valoir de l'or
en fonction de la version
ça faut croiser les doigts et espérer
trop intéressant merci beaucoup
c'était vraiment, ça fait depuis le temps
qu'on parle de ce sujet
je voulais le faire
est-ce que tu connais des gens
qui font la recherche
de la vulnérabilité mais sur IOS en particulier
pas sur des applis etc
mais vraiment sur les choses
qui peuvent donner des gel break derrière
t'en connais ?
il y a plusieurs motivations
il y a déjà une première motivation
qui va être le bug bounty mis en place par Apple
pour trouver les vulnérabilités
il y a aussi la communauté
qui va vouloir avoir des gel break
pour continuer son travail de recherche
de vulnérabilité en dehors
il y a aussi
là du coup je les connais pas
mais toute la communauté de hacker
qui va essayer de trouver des vulnérabilités
dans IOS pour pouvoir
attaquer
des téléphones IOS à distance
donc il y a plusieurs motivations
pour faire ce genre de recherche
des gens entre les deux, genre les zéro du homme
ou l'être comme ça
ça fait partie des gens qui peuvent être intéressés
et justement
moi j'ai déjà pu discuter avec quelqu'un
qui travaille dans une entreprise type zéro du homme
et donc son but c'est des gens
invite-le
c'est vrai que je lui ai jamais lancé l'invitation
je t'avoue que j'y crois moyen
mais pour expliquer
c'est des gens qui
comme vous et moi, c'est des gens très compétents
techniquement qui cherchent des vulnérabilités
sur IOS
sauf que du coup après derrière il les revende
des gens qui font des logies
à prix d'or et une vulnérabilité
à IOS ça coûte très très cher
surtout si elle a des accès important
mais c'est ça
ça coûte vraiment très cher
0 clic comme on dit donc ça veut dire que vraiment
par exemple t'envoies un SMS
et juste il y a une vulnérabilité dans un message
et t'enchaîne avec je sais pas combien de trucs
et à la fin tu finis administrateur du système
je crois que c'était un million
ça l'ordre de grandeur
et c'est typiquement ce qu'achète par exemple
une entreprise à l'époque comme Pegasus
enfin quand même NSO qui développait Pegasus
en fait c'était ce type de faille
c'est pas forcément NSO qui trouvait la faille
mais il l'achetait à ce type d'entreprise
mais ouais on va revoir, c'est un requiert de...
parce que ça correspond aussi à un travail
qui a assez titanesque
de faire de la recherche sur IOS
vu toutes les complexités qu'on a vu plus
vu que ça fait assez longtemps
que Apple met à jour ses produits
et patch les vulnérabilités
donc ça devient compliqué à trouver
d'où le fait que ça coûte cher
est-ce que le fait que beaucoup de vulnérabilités
historiquement passaient par le navigateur
si mes souvenirs sont bons
ça vient de ce que t'as expliqué
savoir que cette histoire de ils ont des...
des choses sont possibles dans Safari qui ne sont pas possible ailleurs
ouais alors ça vient déjà du fait
que par définition
le navigateur il va exécuter du code
qui contrôle pas
par définition le navigateur il va chercher
du code HTML javascript sur un serveur
qui contrôle pas et va l'exécuter sur sa machine
du coup il a des contraintes
de sécurité assez... assez grosses
et en plus de ça
avec le développement du web
il a des contraintes de performance
qui sont hyper... hyper fortes aussi
ou on se retrouve avec des sites web
qui sont de plus en plus gros
qu'on de plus en plus de base de code de javascript
donc il faut exécuter du code
qu'on ne comprend pas le plus vite possible
donc il y a plein de techniques
pour aller plus vite mais ça rajoute
de la complexité et là où il y a de la complexité
on va retrouver des vulnérabilités
c'est marrant, c'est vrai la combinaison
inconnue plus
pression
à l'exécution
enfin la rapidité qui crée des...
généralement un bon...
un bon chercheur dans vulnérabilité
il va essayer de... de retrouver du code
qui a l'air complexe ou mal codé
et c'est là qu'on va passer le plus
de temps pour trouver des vulnérabilités
trop intéressant, merci beaucoup
pour ton passage
on va faire une petite pause
et on revient juste après pour parler
de DDoS et de pourquoi vous pensez peut-être que c'est obsolète
alors qu'en fait pas du tout
euh... et où on te suit quelque part
bon... je sais si c'est inactive mais
peut-être que... est-ce que vous avez un blog
de boîtes souvent les...
il y a le blog sur le site
que vous montriez à l'écran, il y a le blog de la boîte
où on poste souvent
des publications techniques sur plein de sujets
trop cool, donc du reverse
et ben... génial
et ben on te retrouvera peut-être
dans le blog
Salut, si vous appréciez Endorscore vous pouvez nous aider
de ouf en mettant 5 étoiles sur Apple Podcast
en mettant une idée d'invité que vous aimeriez qu'on reçoive
ça permet de faire remonter Endorscore
voilà, telle une fusée
et on s'attaque à un troisième sujet qui n'a pas grand chose à voir
avec le début cette émission
puisqu'on va parler de DDoS
et euh... et c'est pas du tout aussi
démonné que vous pourriez l'imaginer
je sais pas si en tout cas souvent la réflexion
que vraiment c'est... c'est...
c'est une considération ancienne
mais justement on va voir ensemble à quel point
ça n'est pas le cas, à quel point c'est un problème actuel
Jérôme Meyar du coup
tu vais chez Nokia dans la
section Deep Field
euh... tiens passé 20 ans en Asie
et on te reçoit aujourd'hui justement
pour parler sur un truc
sur lequel tu enquêtes depuis un moment maintenant
à savoir le vecteur d'attaque
du DDoS, du déni de service
T'as fait ?
Est-ce que... bon ben bienvenue déjà
C'est ta première fois sur Twitch, sur live ?
C'est la première fois effectivement
Et bah... sur le dernier
toujours les premières fois, c'est vrai ça
Il doit y avoir peu d'émis sur tech sur Twitch
j'imagine
Ah bon, les seuls qui ont ça
Mais pourtant tu pourrais te dire, par exemple
moi je t'ai découvert sur un talk
parce que je disais au frdog
et tu pourrais te dire qu'ils...
pourrais faire des talks en live par exemple
c'est pas absurde
Oui, je crois qu'il est live stream mais c'est effectivement
peut-être que l'audience est un petit peu différente
Oui, j'imagine
Mais c'était peut-être pas sur Twitch aussi
Voilà, non, non, je pense à pas vraiment
Euh...
Du fn... oui je pense à ça
ou des Vox ou le Trump, ça devrait...
enfin bon, bah...
ça paraît très logique
Avant qu'on rentre un peu dans le vif de ton sujet en particulier
euh...
moi je trouve ça intéressant de...
de comprendre déjà pourquoi...
enfin c'est quoi
Deep Hild
Shinokia
Euh...
Vous êtes une trentaine de personnes, si j'ai compris
et...
euh... faut faire de quoi ?
Donc on est un peu plus maintenant, on est
une grosse centaine de personnes
donc euh... donc...
Ouais, c'est une faute, clairement
L'info est pendant plus super publié que quand même
Donc, en fait Deep Hild à la base
c'est une start-up que Nokia a acheté
en 2017, donc en janvier 2017
et qui à la base
faisait de l'analyse de trafic
donc sur les réseaux
donc c'était vraiment
initialement pas du tout basé sur de la sécurité
c'était comprendre un petit peu ce qui se passe
sur les réseaux
pour permettre aux opérateurs
comme par exemple Orange, Bouillique et autres
de comprendre donc d'où venaient un peu les flux
et pour optimiser un peu les mécanismes
de livraison, du trafic
vers les abonnés
d'où vient le trafic
comment est-ce qu'on localise le trafic par exemple
et ensuite ça a évolué
donc au cours des dernières années
pour se focaliser plus sur la sécurité
toujours l'activité
C'est bien d'accord
C'est bien spécifique
C'est très spécifique
C'est les problématiques d'opérateur en fait
disons que la problématique c'était
l'analyse de trafic ça se faisait longtemps
avec du matériel
et ça s'est devenu très rapidement
c'était plus économique
de faire ça
donc c'est tout ce qui s'appelle
DPI, Deep Packet Inspection
qui va vraiment être l'analyse
des flux de trafic
et en fait DPI
c'est initialement une solution logicielle
pour comprendre un petit peu ce qui se passait
en regardant un petit peu
qui, quelles sont les adresses IP
qui envoient le trafic
et qui les reçoit
pour vraiment comprendre un peu
pour optimiser le réseau
et ensuite évidemment
quand on comprend un peu le bon trafic
ça aide aussi à comprendre le mauvais trafic
donc c'est là un peu quand on est venu au DDoS
donc pour comprendre un peu
quels sont les attaques
comment les caractérise
quels sont les vecteurs
et puis comment est-ce qu'on peut du coup les bloquer
OK
grave intéressant
justement je te propose
qu'on entre le visite de notre sujet
qui est que, à deux...
moi j'avoue mon apriori original
c'est que le DDoS c'est un truc qui concerne soit
les kikous depuis leur chambre
éventuellement que c'est un truc un peu
entre guillemets vieillot comme type d'attaque
ou peu sophistiqué
qui était basé sur des
des gros botnets
ou des choses comme ça
j'avais déjà entendu des choses comme ça
mais à aucun moment c'est ça
qui m'a étonné en découvrant ta conférence
je me suis dit c'est un problème
à la fois actuel
mais en plus
qui augmente
c'est plutôt
une considération
qui va
qui va croître
que disparaitre
ça je trouve ça trop intéressant
ça va des gamers
tu vas nous en parler
des adversaires
des groupes pro russe
qui paralysent des sites de lotan
passant par du ranconnage
d'entreprise
il y a un vrai
tout le monde timé
et justement pour bien comprendre
ce type d'attaque
on te reçoit
tu es donc chercheur chez Nokia
moi déjà ma première question c'est
je connais Nokia
qui fait des téléphones
c'est quoi le rapport entre
Nokia et LUDEDOS
donc
Nokia c'est vrai initialement
enfin ça fait
c'est une vieille boîte quand même
c'est vrai que ça fait
150, quelques années que ça existe
à la base quand même
on faisait aussi des botts
en caoutchouc
donc ça évoluait
j'ai entendu de botts
oui oui
d'accord
vous pouvez toujours trouver
des botts Nokia
donc il y a un musée
de design à Helsinki
donc il y a des botts Nokia
qui existe toujours
mais effectivement ça évoluait
donc là l'activité
vraiment
téléphone mobile ça
ça a été complètement vendu
et revendu d'ailleurs à Microsoft
donc on choque c'était en 2012
il me semble
que c'était revendu
et du coup
il y a plus d'activité
enfin téléphone mobile
et donc maintenant
l'activité
enfin le coeur de métier
c'est vraiment sur
l'infrastructure de réseau
donc que ce soit réseau mobile
avec tout ce qui est station cellulaire
pour faire de la 4G, de la 5G
mais aussi tout le coeur de réseau
les réseaux de transmission
les transmissions
jusqu'à aussi récemment
les câbles sous-marins
donc ça c'était revendu récemment
d'ailleurs à l'état français
donc on partit
mais voilà
donc c'est vraiment
l'infrastructure de réseau
ce qui tourne vraiment
sur les réseaux des gros opérateurs
et donc
pas conséquent
donc c'est pour ça aussi
que Nokia acquis DeepFills
parce que ça
enfin la problématique
c'était vraiment sur
l'analyse de trafic
à grande échelle
et aussi du coup
sur la patrice sécurité
qui devient
enfin toujours un problème
d'actualité
malgré
la réputation que tu donnes
à Haudidosse
toujours quelque chose qui fait
enfin voilà
qui a un problème
de tous les jours
sur pas mal de réseaux
et qui est toujours un peu un casse-tête
et juste pour bien comprendre
donc ça veut dire que
effectivement
on n'a pas l'occasion
de voir ce travail là
que fait Nokia
parce que
vos clients
c'est les opérateurs
en fait c'est ça ?
oui, tout à fait
donc ça va être
donc principalement tout ce qui est de type
enfin Orange, Buick, SFR, etc
et aussi maintenant de plus en plus
les opérateurs
enfin les sociétés
qui construisent des data centers
donc ça va être aussi
par exemple Métain
dans la vie précédente
fait des parties
et nos clients aussi
sur différents domaines
donc ça va
ça c'est un peu diversifié
mais c'est vrai que le gros
des clients c'est
les opérateurs
d'accès, mobiles, internet, etc
ok
un truc
qu'on n'a pas encore mentionné
c'est que
toi justement
ton mission
c'était de
te renseigner
sur l'évolution
de
du DEDOS
et pour ce faire
tu n'emplois pas
n'importe quelle technique
puisque
tu vas littéralement t'infiltrer
dans les conversations
dans les
au cœur de la machine
entre guillemets
là où on vend
du DEDOS
qui passe déjà un concept assez marrant
est-ce que tu peux nous expliquer
c'est parti
enfin en gros d'où part
ton enquête
à quel moment tu mets
ton chapeau
d'enquêteur quoi
comment ce projet est né
donc là dessus en fait
nous la façon dont on
on va dire on s'assure
que la solution marche bien
c'est qu'on va devoir tester
au maximum
avec différents types d'attaques
et pour avoir des attaques
qui ne soient pas complètement synthétiques
donc vraiment pour avoir des
choses que les opérateurs
et puis les gens de tous les gens
vous voient vraiment sur le réseau
du coup on va un peu la source
donc c'est vraiment comprendre
quels sont les méthodes
qui sont utilisées par les attaquants
ou par les
les groupes
qui revendent l'accès
à leur système
pour comprendre un peu
la meilleure manière de défendre
le réseau
pour ces attaques
donc c'est pour ça en fait
que du coup pour certains types
d'attaques pas tous
donc je vais aller par exemple
sur Telegram
parce que c'est quand même
sur Telegram maintenant
que la plupart des activités
se passent
pour la vente
enfin différents types
de services on va dire
et du coup ça va permettre
effectivement enfin parfois
c'est très simple
c'est juste aller sur un
c'est la plupart du temps
des canaux qui sont
ouverts, publics
enfin voilà tu peux demander
je voudrais tel plan
donc il y a différents plans
en fonction de l'intensité
dont tu as besoin
que ce soit en termes de durée
de l'attaque
on dirait de l'intensité
en termes de volume
de l'attaque
et puis voilà
donc la personne va te dire
bah voilà ça va faire
tant de dollars
et puis tu payes en crypto-monnaie
et du coup tu peux ensuite
lancer les attaques
et c'est donc du coup
cette partie là qui m'intéresse
évidemment donc on le répétera
je pense plus tard
mais il est illégal
dans la plupart des pays
de lancer des attaques
sur des systèmes tiers
en l'occurrence là pour le coup
je le lance l'attaque
sur nos systèmes à nous
pour prélever des échantillons
donc pour comprendre un petit peu
qu'est-ce qu'il y a
dans ces attaques
quels sont un peu les caractéristiques
de l'attaque
et pour ensuite mieux défendre
oui justement
on va reprendre un peu ça
de étape par étape
déjà première question tout de bête
mais
tu achètes quoi exactement
quand tu dis
je paye
j'obtiens
tu l'as dit une attaque des doses
qu'est-ce qui se passe après
genre c'est quoi
qu'est-ce que je cherche
à faire concrètement
donc il y a plusieurs types d'attaques
des doses
donc il y a tout ce qui
on va dire volumétrique
qui va vraiment être
sur la partie réseau
pour générer un maximum
de paquets
ou de gros paquets
ça va dépendre un peu
du type d'attaque
pour en gros
congestionner
le lien
qui arrive vers la cible
donc s'il y a plus de liens
enfin en gros si
par exemple tu attaques
ton opposant
sur un jeu
et tu sais qu'il a
une liaison avec
par exemple en japon
avec du 1 giga
et tu vas pouvoir
lancer une attaque à 20 gigas
il va plus avoir de débit
enfin il va perdre internet
en gros chez lui
et matériellement
ce qui se passe c'est qu'il faut son adresse IP
et il faut y envoyer
un grand quant
des trains et des trains
de paquets
sur le réseau
sur le réseau quoi
tu fais
donc une fois que tu connais son adresse IP
tu peux dire voilà
tu peux mettre dans le système
enfin dans le site
ou dans l'interface
un peu en ligne du commande
voilà c'est tel adresse IP
tu peux aussi définir par exemple
voilà je veux que soit tel apport
enfin TCP
ou UDP donc c'est un peu
les protocoles sous-jacents
au protocole IP
plus voilà
tu as plusieurs options
en fonction du fournisseur
un peu de Lidovce
et du coup ça va te générer l'attaque
donc tu peux définir aussi la durée
du coup qui intéresse
plus long
enfin plus c'est long plus c'est cher
et du coup tu génères
ensuite toi tu le vois pas
parce que du coup ça va être
généré depuis les serveurs
ou depuis les appareils connectés
de l'infrastructure de l'attaquant
mais le...
enfin l'adresse IP qui va recevoir ça
et le voir passer
elle va pas aimer
parce que justement
tu as donné le cadre d'usage
du gamer
oui
c'est quoi un peu les profils
de gens qui achètent des attaques
des doses
il y a quoi comme utiliser
il y a...
donc le gamer
ça représente quand même
un gros gros...
enfin au niveau du business
c'est pas des attaques
très sophistiques en général
parce que le principe
c'est vraiment
quand les gamers
font ça vraiment de manière
compétitive
du coup quand ils veulent
faire en fait éjecter
leur opposant
du serveur
pour en gros
qu'ils soient forfaités
dans le...
enfin dans le jeu
du coup ils envoient une attaque
au bon moment
pour qu'ils perdent la connexion
au serveur
que du coup ils soient retirés
du jeu
et ensuite pour...
enfin pour gagner un avantage
et ils gagnent la partie
ou...
enfin voilà
pour avoir un avantage
je sais même pas que ça se faisait
parce que je connaissais le...
le stream hack par exemple
je connaissais juste le fait
d'avoir des...
des cheats
mais je connaissais pas
encore ce côté sombre
du jeu
c'est à notre niveau de...

pour...
pour être très très compétitif
et tu dis que ça c'est...
c'est...
ça représente un...
un bon volume
oui
donc après c'est pas...
c'est pas le plus sophistiqué
parce qu'en gros
t'as juste besoin d'envoyer
beaucoup de...
de trafic
et en général
c'est sur des connexions
un peu résidentielles
donc t'as pas besoin
t'as pas besoin d'avoir une vraie
enfin...
t'as pas besoin d'avoir
des centaines de gigas
de trafic
ça va...
tu as besoin de quelques gigas
ça suffit
mais du coup
ça représente un volume
de nombre d'attaques
c'est ça qui représente
la majorité des attaques
aujourd'hui
mais c'est pas...
voilà c'est...
mais les gamer calmez-vous
c'est vrai qu'on ne le soupçonne pas
et...
et donc pour ça
c'est le premier profil
de...
du gamer
c'est pour ça qu'on parle souvent
de...
bah...
d'ailleurs les streamers
entre autres
ont très peur des ligues d'IP
oui, exactement
ouais, tout à fait
donc c'est une fois que
l'adresse IP est connue
c'est le plus facile
c'est le plus facile
il y a juste un champ à remplir
dans le site
qui va lancer le lead-up
et puis c'est parti
c'est perdu
c'est perdu
donc ça c'est le premier cas
le plus évident
c'est le gaming
c'est quoi les autres, je dirais
donc après il y a des...
il y a pas mal encore
même si c'est plus difficile
à quantifier
mais du coup
il y a des problèmes
de rençon geciel
enfin de...
de rençon
d'extorsion
en gros
où les attaquants vont dire
j'attaque
je fais une petite...
ou une petite
moyenne attaque on va dire
ensuite j'envoie un email
à la société en général
parce que c'est quand même
plutôt dirigé
vers des entreprises
donc pour leur dire
c'est moi qui lance l'attaque
je demande d'une rençon
donc un paiement
évidemment en crypto-monnaie
avant la semaine prochaine
sinon j'intensifie les attaques
et donc ça monte en fait
en intensité
donc ça, ça reste aussi
une partie des attaques au moins
et ça
je pense que Cloudflare
pour le coup
donc une entreprise
donc américaine
qui est donc un des domaines
et la protection d'idosse
donc eux ils ont un peu plus de visibilité
parce que du coup
ils gèrent plus
ce côté un peu petit d'entreprise
qui ont plus facilement accès
ce type de service
et ça reste effectivement
je pense que
10 ou 20% des attaques
sont aussi motivés par l'extortion
donc vraiment
il fait un match
disiblement oui
disiblement
après je sais pas quel pourcentage
justement c'est difficile
à connaître
il doit y en avoir qui paye
oui
sinon ça n'existerait plus
mais ça paraît fascinant
parce que autant le rense-on-jiciel
donc qui vient bloquer vraiment
mes données d'entreprise
il y a un côté très urgent
et dramatique
autant je me dis
bon je perds ma connexion internet
est-ce que vraiment je...
est-ce que perdre ma connexion internet
pendant une semaine c'est une raison
de payer un bitcoin
enfin je sais pas
après il peut y avoir différentes motivations
donc soit ça peut être effectivement
un impact sur la disponibilité
du service de l'entreprise
donc ce qui peut être
en fonction des activités de l'entreprise
plus ou moins gênant
après il peut y avoir...
oui ça peut être
votre site e-commerce par exemple
il ne sera pas disponible
pendant une semaine à Noël
oui c'est plus gênant
et aussi sinon il peut y avoir
donc pour d'autres cas
où les entreprises
vont se faire un peu éjecter
de leurs fournisseurs de connexion internet
parce que le fournisseur va dire
bah vous vous faites attaquer
en gros vous avez un impact
sur le reste de l'infrastructure réseau
donc nous en fait on n'est plus trop intéressés
de vous avoir comme client
donc merci d'aller voir rire
c'est fou bon bata
voilà donc ça c'est aussi possible
on a vu le cas
après ça c'est pour des plus grosses attaques
en général quand même
mais c'est possible aussi
ah donc tu te retrouves banni
par tout tes fournisseurs d'internet
tu peux bien m'interneter chez toi
super
donc ça c'est le deuxième cas
c'est l'extorsion
il y en a d'autres
donc après effectivement
c'est là que récemment en tout cas
enfin cette année en particulier
donc j'ai passé pas mal de temps
sur les groupes de activistes
qui sont motivés plus d'un point de vue
idéologique pour le coup
pour des causes et principalement
enfin le gros du sujet
c'est vraiment avec l'invasion de l'Ukraine
donc depuis 2022
avec vraiment ce sujet là
où il y a des groupes
qui se sont formés du coup
pour déjà d'une part
attaquer un peu
faire des représailles
contre soit l'Ukraine directement
ou indirectement pour les pays
ou les gouvernements
ou les entreprises
qui supportent l'Ukraine
et du coup qui font ça
d'une part pour impacter le service
parce que effectivement
enfin si un site d'un gouvernement
devient inaccessible
quelque part c'est aussi
un impact de réputation
mais aussi pour faire parler d'eux
c'est vraiment, enfin on voit
ils adorent
enfin on peut le voir sur leur canal
Telegram
quand par exemple
parce que toi tu es un p'tit
oui c'est public
donc un p'tit n'importe qui peut y être
donc en tout cas pour les principaux
c'est ouvert à n'importe qui
et du coup ils adorent
quand on parle d'eux dans la presse
sur des sites web
parce que c'est un peu
voilà enfin ça fait un peu d'héro
je sais pas mais en tout cas
ils adorent ça
mais c'est vrai que ce qui est frappant
c'est de voir la courbe d'attaque
de Dédos que tu nous as montré
on voit vraiment avant après
la guerre en Ukraine
oui donc après
c'est vrai que de manière générale
donc ce qu'on observe
depuis plusieurs années c'est que
la croissance du trafic
Dédos surpasse la croissance du reste du trafic
en termes de pourcentage
en relatif
donc ça croit forcément plus vite
que le reste du trafic
en tout cas c'est l'observation
de ces 5 des derniers années
ça c'est plus intéressant
oui
ça veut dire que
c'est un quétant un peu
c'est plutôt un problème
qui va continuer d'augmenter
qu'il faut traiter quoi
c'est un problème à traiter
surtout que du coup
c'est vrai qu'on en parlait un petit peu au début
la nature un peu du
enfin la façon dont le trafic est généré
a changé au cours des dernières années
parce qu'avant il suffisait un peu d'avoir
des en gros des serveurs
ou des VM
chez un hosteur de type
pas au VH parce qu'il faut attention quand même
mais des opérateurs
des opérateurs qui font moins gaffe
qui sont un peu moins scrupuleux
donc ça s'est devenu de plus en plus difficile
parce que maintenant il y a plus de contrôle
on va dire sur qui peut envoyer
quel type de trafic sur internet
mais maintenant c'est plus au niveau des objets connectés
puisqu'on a de plus en plus d'objets connectés
qui sont distribués partout sur internet
pas spécifiquement à un pays en particulier
et ces objets connectés
il en suffit qu'un demi pour cent
soit compromis et fasse partie d'un botnet
pour que ça représente un nombre assez
je l'ai fait assez conséquent
pour envoyer du trafic depuis ces appareils
donc c'est vraiment pour nous en tout cas
ce qu'on a constaté c'est depuis quelques années
ce sont ces appareils connectés
qui envoient la majorité du déloss
aujourd'hui
donc un appareil connecté ça ne paraît pas grand chose
ça ne paraît pas très capable
c'est peut-être caché dans une maison
qui a un gigabit de données
mais en fait le nombre
peut créer des volumes vraiment gigantesques
de trafic c'est ça
tout à fait et puis c'est vrai qu'à la base
ça avait commencé alors qu'à l'époque
il n'y avait pas vraiment non plus
de connexion gigabit chez les foyers
maintenant c'est vrai que c'est hyper courant
enfin dans pas mal de pays en tout cas
d'avoir des connexions symétriques en gigabit
mais maintenant on voit là en France par exemple
enfin les opérateurs qui lancent leurs offres
à 8 gigas après bon
je pense pas que ça va vraiment être utilisé
à 8 gigas par les appareils mais
il n'en reste pas moins que du coup
c'est quand même un gros débit
qui est disponible pour chacun des appareils
qui sont en comprimie
ça qu'on n'y pense pas que nous
notre...
enfin le côté extrêmement positif
du fait d'avoir la fibre partout
en fait il y a un pendant
en termes de cyber sécurité
c'est que du coup ça augmente aussi
le trafic des attaquants pour faire du dédoss
oui
il y a...
il y avait donc...
ce qu'on disait aussi un petit peu c'est que
pendant longtemps tous les opérateurs
enfin en tout cas même les constructeurs
de réseaux fixes on va dire
étaient un peu à la recherche de la killer application
on va dire, enfin de l'application FAR
qui justifierait d'avoir des débits
en gigabits, en débits montants
parce que descendant c'est vrai qu'on peut toujours utiliser
enfin il y aura toujours des vidéos, des downloads
enfin surtout tout ce qui est téléchargement de jeux
qui peuvent être énormes
donc débit descendant ça n'a jamais été vraiment un souci
il y a toujours eu un peu un cas d'usage
débit montant il y avait toujours la question
qu'est-ce qui va vraiment utiliser un gigaire montant
bah la réponse c'est le dédoss
c'est l'application FAR
bravo
un câlin d'appelissement aux opérateurs
moi c'est vrai que
quand on travaille dans la vidéo par exemple
on est très content d'avoir des gros débits montants
mais c'est un peu une des seuls
une des seuls raisons
objectivement d'avoir des gros débits
ou alors
ou alors d'héberger par exemple un nas
chez soi
c'est aussi un autre cas
mais effectivement à part ça il y en a très peu
on a parlé des
potentiels clients
donc qui sont les gens qui payent
maintenant les vendeurs
en gros qui vend du dédoss
aujourd'hui c'est à dire que
tu l'as dit tu as parlé de
de conversation telegram
c'est quoi les endroits où se vendent
des attaques des dosses
et c'est quoi un peu les profils
si on les connaît un minimum
des vendeurs
donc telegram reste quand même
le... pardon
l'endroit principal
donc où le
léger change se font
parce que du coup ça reste
la recherche est assez facile
il y a un certain niveau d'anonymat
même si avec les développements récents
on peut se poser la question si ça va durer ou pas
mais du coup c'est là que se font les
c'est là que se fait la recherche
des différents sites qui fournissent ce service
après donc il y a différents
différents opérateurs
c'est très très fragmenté donc il n'y a pas vraiment
un qui est mieux que l'autre
qui a plus de part de marché
ça marchait très
c'est du marché gris donc
c'est assez particulier
mais du coup ils vont fournir
différents types de services
et après je pense qu'il y a aussi beaucoup de
c'est très très difficile de vraiment savoir
qui est vraiment légitime ou pas
est-ce qu'ils vont vraiment faire ce qu'ils disent
parce que il y en a beaucoup qui font un peu
des scames
qui vont dire oui oui on sait faire
donc tu peux acheter ton accès
envoie nous
100 ou 200
dollars en crypto
et puis après ils ne vont jamais t'envoyer
les identifiant de connexion
du coup il y a quand même pas mal
d'échers aussi là-dessus
et puis après voilà ça va être des interfaces
qui vont un peu différer les unes des autres
il y a pas mal de choses qui sont en commun
au niveau de la syntaxe
qui est utilisée par exemple pour tout ce qui
outille en ligne de commande
ou en gros ça va être adressipé
pour méthode et puis en gros
avec un dictionnaire un petit peu commun
mais voilà ça reste très très fragmenté
avec beaucoup de mouvements aussi parce que du coup
il y a quand même pas mal d'interpensions
de manière assez régulière
des forces de l'ordre enfin tout ce qui est
Europole, Interpol, FBI etc
Ok donc c'est un problème vraiment préocériaïe
tout comme d'autres types d'extorsions etc
il y a des arrestations quoi ?
Il y a des arrestations
donc là clairement
c'est un sujet qui est pris au sérieux
même si c'est vrai qu'on entend beaucoup plus parler
et je pense aussi à juste titre
tout ce qui est en songeiciel
qui a des impacts vraiment concrets
on va dire dans la vraie vie
mais c'est vrai que je crois que c'était la fin
de l'an dernier où pour le coup
il y a une grosse intervention
ordonnée entre FBI et Europole
qui a résulté
enfin qui a en gros fermé
une cinquantaine de sites
qui ne faisait vraiment que du guideus
donc après
on a vu un impact
sur le moment je pense sur le trimestre
qui a suivi effectivement on a vu une légère réduction
donc on va dire de l'ordre de je sais pas
10-15% sur le trafic d'idos
mais ça a repris après
donc voilà il y a toujours un marché
on va dire pour le didos
et il y a des gens qui vont remplir ce marché
Est-ce que ça t'est déjà arrivé
de payer pour un didos
pour pouvoir prélever un échantillon
et que tu ne reçois jamais ce didos
parce que en fait
tu t'es déjà fait scam
je suis déjà fait scamer
je crois le feeling de
se faire avoir
c'est jamais très agréable
après c'est pas des grosses sommes
en gros moi j'ai pas besoin d'avoir
la méga attaque
avec des centaines ou des terrains
de trafic
moi ce qui m'intéresse c'est vraiment d'avoir un petit échantillon
qui va permettre de voir un peu qui envoient
qui sont les méthodes
et puis après ce qui est plus courant
enfin ce qui moi m'agaisse un peu plus
ou en tout cas ce qui est plus intéressant
c'est que du coup certains
vont dire nous on sait faire ça
ça va être du botnet
ça va être des super attaques
qui vont vraiment rendre tous les sites inaccessibles
et puis ensuite tu regardes un peu
l'échantillon tu dis bah ouais en fait
c'est juste genre 5vm dans ton truc
qui envoie du trafic
qui est pas très difficile
qui est facilement détectable
et ce qui est pas du tout du botnet
en gros il y a un peu une
est-ce qu'on peut s'arrêter un petit peu sur
les différents types de dédoss
c'est quoi un dédoss qualitatif
c'est quoi un dédoss
sophistiqué ou nul
est-ce qu'on peut expliquer ça
donc en gros
on divise en général le type
de dédoss en trois catégories
il va y avoir tout ce qui est
volumétrique où ça va être vraiment
donc soit
on a parlé un petit peu au début
donc tout ce qui est à base du surpassion
en fait d'adresse IP
en gros on va dire il va y avoir
plusieurs serveurs qui vont envoyer
beaucoup de trafic qui vont dire
par exemple moi je suis une adresse IP de Microsoft
et puis je vais envoyer plein de trafic
et ça va passer
parce qu'il y a certains fournisseurs de transit
qui vont accepter ça
ça ça reste donc du coup ils peuvent envoyer
du trafic avec plein plein d'adresses IP source
qui sont différentes donc on voit
régulièrement des millions d'adresses IP
qui envoyent du trafic vers une seule
adresse IP destination
ça sert à quoi d'en avoir plein
ça sert donc ça peut être utile justement
quand tu veux
quand tu veux avoir
un impact sur tout ce qui est Firewall
et puis tout ce qui est
gestion de charge donc qui va être en gros
sur le plan du trafic
c'est des méthodes de protection c'est ça
ça va être en gros par exemple un Firewall
ça garde un peu
en mémoire l'état des connexions qui sont établis
donc s'il voit soudainement
un million d'adresses IP
qui demande à faire des débuts de connexion
ça veut dire qu'il va devoir charger
les mémoires avec un million d'adresses IP
une mémoire qui n'a probablement pas
donc du coup ça va résulter
en soit le Firewall va complètement tomber
donc on en bloque le trafic
donc ce qu'on appelle un peu le fail close
en gros ça va compléter
le boulot de l'attaquant puisque du coup
ça veut dire que la destination n'est plus atteignable
ou alors ça va
ne plus marcher mais on laissant passer tout
donc là pour le coup
c'est un peu moins courant maintenant mais on voit quand même
des Firewall qui une fois qu'ils sont
attaqués ils laissent passer tout le trafic
et du coup ça peut être utilisé par des groupes
qui utilisent le DDoS comme première méthode
pour infiltrer le réseau
de l'entreprise qu'ils veulent entrer
pour pouvoir installer
soit des infostillers
soit du rençon geciel donc voilà
ça permet d'avoir une première entrée aussi
on fait un peu une analogie
c'est comme ça fait une porte blindée
et que pour pouvoir entrer t'envoie
un torrent dessus pour jusqu'à ce qu'elle expose
et qu'elle s'ouvre
je ne connaissais pas l'usage du DDoS comme ça
c'est marrant
donc ça c'est le premier type
ils ont trouvé en gros un moyen de pas être
blacklisté facilement en ayant
un million d'IP qui n'existe pas vraiment
c'est quoi les autres du coup
donc ensuite il va y avoir tout ce qui est
botnet donc ça c'est vraiment
le gros, enfin ce qu'il y avait avant de me développer
qui veut utiliser des adresses IP
qui sont associées à des vrais abonnés
avec des appareils connectés donc ça on en voit beaucoup
donc grosso modo
aujourd'hui on
on va dire on est au courant d'à peu près
un million d'objets connectés
qui sont impliqués dans du DDoS
donc juste pour donner un peu un ordre de grandeur
donc eux vont pouvoir envoyer du trafic
qui va assembler légitime
puisqu'ils viennent de vrais adresses IP
que si jamais il y a des équipements de protection
qui vont un peu leur envoyer
des trafics un peu en challenge
donc pour en gros vérifier
si ce sont des vrais adresses IP derrière
ou pas donc ils vont répondre
parce qu'ils ont une vraie couche TCPIP
donc ils vont pouvoir
passer un peu tous les défis
et puis du coup
ça peut envoyer un pas mal de trafic
comme on a discuté avec les connexions à JIA
représenter pas mal de volumes
plus difficile à détecter puisque du coup
c'est des vrais adresses IP d'abonnés
et surtout si la protection
les bannis
tout de suite
c'est un gros problème parce que ça veut dire que c'est des
potentiellement des hippies
ou des faux positifs
c'est impossible de distinguer un objet connecté
j'imagine de vrais utilisateurs
qui ont de bonnes raisons d'accéder au site
tout à fait et donc du coup
ça va pas être très utile
de regarder un peu le trafic en lui-même
mais ça a plus être intéressant de voir un peu
est-ce qu'il y a des caractéristiques communes
aux adresses IP donc c'est là que par exemple
pour nous ce qu'on fait c'est qu'on va
maintenir un peu une grosse base de données
de chaque adresse IP pour dire
derrière cette adresse IP
il y a un As où il y a un router Asus
qui est très populaire aussi chez les
boîtes nettes ou TP-Link
il y a pas mal d'objets
il y a pas mal de choix
mais tout que c'est des objets qui se font
bien à terre ou c'est ça ? Oui tout à fait
donc soit parce qu'ils ont pas été mis à jour
il y avait une faille de sécurité
il n'en pas été mis à jour donc du coup
les attaquants ont pu compromettre les objets
et puis du coup en faire des bottes
donc du coup ça va permettre
de contrôler complètement
les objets connectés et puis de les faire agir
un peu en concert pour envoyer
le même type de trafic donc vers
la destination qui va être sous attaque
Incroyable donc ça c'est
les bottes nettes c'est ce dont moi j'avais
effectivement le plus entendu parlé
et il y en a une troisième
et donc ensuite il y a tout ce qui est applicatif
donc là ça va pas être tellement au niveau du volume
de données qu'on va envoyer donc
ça va pas être beaucoup de paquets
ou beaucoup de tailles
de bandes passantes
mais plus s'atturer un peu
la capacité de
au niveau du serveur donc par exemple
si on veut attaquer un serveur web
va faire pas mal de plein plein
de requêtes qui vont être des requêtes
par exemple la HTTPS qui vont être
sur un formulaire ou pour en gros
que ça passe d'un point de vue réseau
mais que ça est sur la couche supérieure au niveau du serveur
pour s'atturer enfin pour en gros
congestionner la
puissance de la capacité du serveur
et donc ça c'est typiquement
ce qu'on voit beaucoup donc avec ces groupes
du activiste ProVus
ça va être du trafic qui est assez
limité en volume ça va pas être des centaines
de GA
typiquement d'ailleurs c'est plus difficile à détecter
puisque c'est vraiment on va dire quelques dizaines de megabits
donc c'est à l'échelle d'un réseau qui fait
beaucoup beaucoup plus que ça
c'est quand même pas gros
et du coup qui va
avoir un gros impact si les serveurs
sont pas bien protégés donc on voit pas mal
notamment de sites de gouvernements
qui souvent quand même sont un peu
sous financé on va dire
qui ont pas forcément les capacités de protection
que vous pourrez avoir des entreprises privées
et qui du coup
une centaine de requêtes HTTPS
sont tombés voilà donc ça c'est
le troisième petit attaque ça marche
Tavé ?
Oui j'avais une question mais
ça coûte trop bien
là maintenant j'ai un petit budget
à alloer à des deux
mon concurrent
qu'est ce que je obtiens
pour 10 dollars 100 dollars
1000 dollars enfin c'est quoi les
l'heure de grandeur ?
Donc déjà il est gratuit donc c'est quand même bien
il y a des appérateurs
qui fournissent un peu un modèle premium
un échantillon gratuit pour te donner
un peu le go de la chose
et du coup après
c'est pas des attaques très sophistiquées
donc c'est un peu basique ça va être à base d'amplification DNS
par exemple
donc ça c'est disponible de manière gratuite
par exemple on a un site
qu'on peut tout à l'heure montrer
évidemment de manière complètement
pour un anime magnifique
donc pas vraiment enfin je maintiens que
c'est pas quelque chose que les gens doivent faire
et ensuite à différents niveaux
en fait en fonction encore une fois
du nombre d'attaques tu veux le lancer en parallèle
de la durée de l'attaque
donc en gros le prix va un peu monter en conséquence
il y a aussi de l'intensité donc combien
enfin quelle est la puissance de frappe en gros que tu veux avoir
pour ça
pour donner un peu une idée d'ordre de prix
donc il y a des plans
enfin un peu les plans de base
tu peux en avoir pour quelques dizaines de dollars
donc c'est vraiment pas très cher
c'est ridicule ouais
un impact assez visible
et ensuite quand tu pars sur tout ce qui est botnet
ou là pour le coup ça va être vraiment des vrais appareils
qui peuvent générer jusqu'à
1 ou 2 terabies de trafic
donc c'est énorme à l'échelle d'un réseau
là ça peut aller dans les centaines de dollars
par semaine
donc en gros c'est un peu l'ordre de prix
après il y a un peu de tout
c'est toujours un peu difficile
à benchmarker
mais justement tu as mentionné une plateforme
donc c'est à dire qu'on parlait de telegrams
comme zone d'achat
de vente mais il y a aussi des sites
donc ça veut dire qu'ils font du e-commerce en fait
des sites qui d'ailleurs
sont protégés par
clafleurs
la plupart du temps
parce qu'évidemment
entre eux aussi ils aiment s'attaquer
évidemment mais quand t'as disposition
un botnet géant
tu vas évidemment attaquer tes concurrents
mais c'est hilarant et donc eux-mêmes
utilisent la protection des doses
pour vendre leur service de des doses
je crois que jusqu'à présent j'ai vu
peu de sites de des doses
qui n'utilisent pas clafleurs
parce que c'est vrai que clafleurs fournissent un service gratuit
qui sont
en termes de début
en gros ils sont pas très interpossionnistes
on va dire
et donc du coup c'est là-bas que tout le monde
va par défaut donc c'est vraiment la protection du site
d'idos et faite par un anti-didos clafleurs
c'est quand même assez particulier
et donc là c'est ce que vous voyez
ce que les yeux ceci est une marketplace
ou concrètement
on peut faire ces emplettes
donc là on a des forfaits basiques
avancés, experts
il y a un sens du marketing
dans le vendeur de des doses
tout si tu as un plan gratuit
oui c'est ça
par contre si ce sont les aussi longues les frémiers
moi ce qui me fascine c'est quand même le niveau
de maturité
derrière le
derrière ce commerce
c'est quand même fou
il y a un vrai business derrière
parce que quelque part
c'est vrai que le coût de lancer les attaques
est quand même très faible
et surtout quand on compare au coût de défense
parce que c'est vrai que traditionnellement
les équipements
donc c'est des équipements matériels qui étaient impliqués
pour la défense d'idos un peu comme
des gros firewalls en gros pour simplifier un petit peu
mais des
des équipements spécialisés donc du coup
qui tournent pas sur des processeurs
x86
mais plus voilà des FPGA
des vraiment
de l'équipement plus
customisé on va dire
et du coup ça coûte beaucoup plus cher
enfin en gros le coût de défense est plus élevé
que le coût d'attaque
c'est pour ça qu'en fait il y a ce phénomène
un peu où il y a un marché qui se crée
parce que du coup que ce soit
pour faire de l'extorsion
ou que ce soit
enfin en gros le retour sur investissement se fait
parce que du coup c'est aussi peu cher
et ça représente
pour qu'il y ait des sites comme ça
c'est que ça doit représenter beaucoup d'âge
en fait quand même
après pour le coup j'ai absolument
aucune idée du budget
enfin en gros du marché
total que ça peut présenter parce que c'est
quand même très très opaque
enfin tout se fait en crypto
donc c'est vrai que c'est difficile à estimer
mais c'est vrai que si on regarde aussi
le marché anti-didos c'est aussi un gros marché
donc c'est de l'ordre
enfin c'est quand même plusieurs milliards de dollars
qui sont dépensés chaque année
pour se défendre contre des attaques
d'idos donc quelque part
l'équation se fait quelque part un peu aussi
Oui toi probablement
il faut y voir l'intro guillemets avec l'équivalent
ou un peu de monde en face mais
et moi c'est un truc que je trouve hyper intéressant aussi
c'est la provenance du trafic
c'est que tous les pays
n'envoient pas
autant d'idos en particulier
par exemple la Corée
envoie
des grands volumes
des dos à cause
de ces caméras, de vidéos
registreurs etc
comment ça se fait ?
là dessus ça va être
donc
déjà tout, enfin chaque pays n'a pas la même proportion
d'appareils connectés donc ça c'est un des facteurs
donc qui a un gros
impact sur le volume qui est généré
donc c'est pour ça qu'on voit
quand même pas mal de pays
qui ont des, soit beaucoup d'appareils connectés
ou aussi des certains types de routeurs
notamment, micro-tique
micro-tique je vois ça
mais
quasiment dans chaque échantillon que j'en garde
il y a du micro-tique
donc pour différentes raisons
il y avait des réglages par défaut
pendant très très longtemps
il y avait un mot de passe par défaut
il y avait ça mais aussi il faisait tourner un serveur DNS
par défaut qui pouvait être utilisé pour de
l'amplification DNS
il y avait, il y a différents types de réglages
bon les élèves
voilà donc c'est pas mes meilleurs amis
mais du coup
ça va être un peu
il va y avoir un peu de sur-représentation
de certains pays à cause de ça
donc par exemple micro-tique
il va y avoir beaucoup brésilien, indonésie
ça va être sur-saisant type de pays
et ensuite pour tout ce qui est appareil connecté
ça va être, enfin par exemple on voit beaucoup
aux Etats-Unis, en Corée
mais c'est très très issu de manière générale
en Corée c'est vrai qu'on avait eu
le problème, enfin du coup
quand j'étais toujours basé donc en Asie
où le client était venu nous voir
et disait bah on a un problème
en fait avec la connexion
la connectivité vers l'étranger
qui est saturée, on sait pas trop pourquoi
et en fait en enquêtant un petit peu
on a vu bah c'est en gros
5, 6 000 en gros
enregistreur vidéo
donc tout ce qui est rattaché derrière les webcams
donc qui est, enfin qui enregistre
du coup les flux vidéo comme peut le faire
à un synologie ou équivalent
Un mini-ordi en fait
Oui voilà, avec des discos durs
mais en gros c'est ça, qui est connecté à internet
et qui du coup, enfin on voit un paquet de didos
qui saturait du coup la connectivité
montante
Ils avaient pas vraiment marqué en fait eux
Non, parce qu'ils avaient pas d'utils en fait
pour vraiment comprendre, enfin pour comprendre
que c'était ce type d'appareil
parce qu'ils voyaient ça venait d'adresser IP
mais ils avaient pas de visibilité plus que ça
du coup, enfin on a pu leur montrer
que c'était ce type de caméra
on a vu aussi des trucs un peu plus zésotériques
comme des parkmètres
donc on a vu des parkmètres qui envoyaient du didos
donc ça aussi aussi
Très bonne idée de mettre des parkmètres sur internet
qui sont souvent pas mes ajouts
enfin voilà c'est souvent le cas pour s'isobir
Je t'imagine d'être
Oh non, un parkmètre, bonne d'idos
Ceci étant
parkmètre
Oui effectivement
ça ne devrait pas
Et en fait, il y a chaque fois qu'on connecte un truc
c'est une potentielle
nouvelle source de flux
Surtout pour les appareils connectés
enfin tout ce qui est objet connecté
souvent quand même il y a une course
vers le beacou quand même en général
qui sont pas
enfin ils commencent pas avec une base sécuritaire
très forte on va dire
et en plus la plupart des, enfin il y a beaucoup de sociétés
qui ensuite
sont abandonnées, enfin qui n'existent plus
ou ne maintiennent pas leur logiciel
on a vu encore le cas d'ailleurs
il y a quelques semaines
avec je crois que c'était TipLink
qui disait ben
on arrête de fournir
des mises à jour de sécurité à nos NAS
donc tout ce qui est NAS
qui est connecté, qui est toujours utilisé par
quelques dizaines de milliers de personnes
et qui sont connectés à internet
ça veut dire qu'il peut être facilement exploité
mais qu'il n'y a aucun moyen de les mettre à jour
donc ça c'est un gros problème
enfin un gros sujet quand même au niveau des objets connectés
c'est pas cher mais après quelque part
on a aussi un petit peu un peu ce qu'on paye
en termes de sécurité et puis
de l'impact que ça peut avoir sur internet
Ben d'ailleurs je me permets d'intervenir
mais depuis moins de 48h
il y a des links qui sont
tombés, tout leur vieux appareil
tout leur vieux routeur et switch
sont tous tombés
et ils ont dit ah on peut rien faire
racheter des nouveaux, bisous
mais en fait c'est horrible
parce que du coup ça vient
de vendeur d'objets connectés, de routeurs etc
mais l'impact
retombe sur
vous, sur les entreprises
ça retombe pas vraiment sur eux
en fait la responsabilité est complètement déviée
Oui c'est un peu, après
c'est toujours, enfin quand on développe
du logiciel, c'est vrai qu'il y a toujours
il y a rarement des logiciels pour lesquels
on peut dire on va
assurer du support
et puis des mises à jour
sur 50 ans
enfin je pense peut-être pour certains domaines oui
mais pour la plupart non
donc après c'est vrai que c'est toujours un peu
l'équilibre entre eux, enfin quel est la durée
de support des appareils
et puis quel est un peu la
posture de sécurité de ces entreprises aussi
sur ces sujets
T'as expliqué qu'une partie de la raison c'était
aussi le bacou des objets connectés
et pourtant de ce que
tu nous expliquais, il y a aussi des appareils
extrêmement chers, qu'on s'attendrait à être
des
des trucs bien finis, bien
secus etc
qui sont aussi à l'origine de botanette
Oui
Bah par exemple
je vous l'ai nommé, je pense que c'est public
de toute façon mais Fortinet
donc ils font quand même
des, enfin qui sont très très présents sur le marché
des firewalls
donc eux aussi, enfin ils ont eu des quelques soucis
avec des vulnérabilités qui sont exposés
le problème après c'est pas tellement
qu'ils ne vulnérabilités, c'est que
il faut les, enfin il faut mettre à jour les appareils
du coup quelque part après ça retombe
la responsabilité, il retombe vers les entreprises
qui déploient ces appareils et si
elles ne les mettent pas à jour, bah oui il y a un problème
donc après c'est vrai qu'on voit
des vendeurs de sécurité qui ont
des problèmes de sécurité, ça c'est sûr
Mais là en plus faut comprendre
c'est un peu horrible parce que c'est des appareils
qui coûtent très très cher
Ouais j'imagine plus de...
J'ai pas la disepris moi je pense que c'est...
Mais ça peut être même parfois plus, c'est des équipements réseaux
de sécurité donc qui ont une puissance
réseau très élevée
beaucoup plus qu'un routeur qui du coup
passe du côté de...
de la force comme ça et que ça devient
un botnet mais
c'est un botnet de firewall
effectivement, le firewall qui coûte 20 000
balles, c'est un bon botnet
C'est pareil par exemple pour l'exemple
micro-tik, donc micro-tik ils ont quand même
une vaste gamme donc on contrôle vraiment
des routeurs qui sont vraiment pas chers
et puis avec des capacités, on va dire
vraiment pour la maison et puis aussi des routeurs
un peu plus de corps de coeur
de réseau et du coup
c'est vrai qu'il y a eu un bon article
là dessus donc il y a quel...
Je crois que c'était d'OVH d'ailleurs, enfin OVH Cloud
qui avait un très bon article là dessus
qui disait bah on a quand même identifié
qu'il y avait quelques milliers de routeurs
enfin des CCR donc les cloud corps
routeurs de micro-tik et
eux quand ils envoient du trafic, c'est envoie de la patate
parce que c'est vraiment, enfin ça peut envoyer
plusieurs gigas et
pas mal de paquets aussi en intensité de paquets
parce qu'ils sont conçus pour vraiment
avoir cette efficacité au niveau du débit
Juste pour expliquer un petit peu c'est comme c'est
nous les routeurs qu'on a dans notre maison etc
c'est un truc qui met, c'est des petits routeurs
qui sont faits pour gérer le petit
trafic dont nous avons besoin
mais c'est un peu que, si on voit internet
il faut s'imaginer que entre
tous nos routeurs il existe des routeurs
genre de classe supérieure
un petit peu
qui eux doivent gérer des terra aux
têtes données
et c'est de ceux là dont on parle
qui peuvent se faire eux pirater
et c'est là où effectivement
on commence à marcher sur la tête
ou le réseau lui-même
je vois le truc comme des batailles internes
ou des flux
je sais pas comment dire mais un truc très graphique
je trouve, de ces flux de données
qui s'attaquent
les uns les autres qu'on essaie de bloquer
qui font tomber des firewalls
et en même temps je comprends
les ingénieurs qui doivent mettre à jour
ce type d'épicement pour éviter que ça fasse du dédose
pour avoir travaillé chez OVH Cloud
quand ils doivent mettre à jour un routeur type CCR
tu sues un peu
tu vérifiques un ce soit ton truc
parce que si tu rates ta mise à jour
par exemple si c'est un routeur en sortie de data center
c'est ton data center qui n'est plus accessible
c'est compliqué
et donc du coup c'est des mises à jour
c'est pas des mises à jour
j'appuie sur mises à jour dans l'appstore
et ton application se met à jour
c'est des mises à jour qui mettent plusieurs jours
à ce paramétré
je suis plus à jour là dessus
mais c'est
des ingénieurs qui suivent derrière
c'est quelque chose
c'est pas anodin
ça se fait peut-être une ou deux fois par an
tu fais ta mise à jour et ça demande des semaines de préparation
en amont donc c'est vrai que c'est un autre problème
il y a une technique dont on a pas encore
totalement parlé c'est
effectivement
le DDoS par botnet
c'est un truc que j'avais déjà effectivement entendu
mais quelque chose de nouveau
dont tu parlais c'est
d'utiliser ce qu'on appelle les proxies résidentielles
est-ce que tu peux les expliquer un peu
c'est quoi ce truc
et pourquoi
pourquoi ça intéresse les attaquants
donc les proxies résidentielles
ça permet de faire passer en fait
les proxies déjà à la base
ça permet de faire passer du trafic
un peu comme si on avait l'adresse IP
du proxies plutôt que de son adresse IP à soi
donc du coup c'est intéressant
pour plusieurs cas d'usage
certains sont légitimes
par exemple
il y a des entreprises qui font de l'étude
un peu de leur concurrence
avec ces services-là parce que du coup par exemple Air France
c'est juste un exemple
peut utiliser ces services-là pour
observer un peu
les prix de leurs concurrents
en Europe ou ailleurs
pour voir si en fonction des certaines routes
qui sont faites avec une location précise
dans un certain pays
ils peuvent un peu ajuster les prix
à fonction de ce que les autres font
donc ça c'est un peu les cas d'usage légitimes
mais ensuite il y a aussi effectivement tout ce qui est un peu moins
légitime
et où ça va être utilisé pour du didos
pour faire relayer le didos à travers
ces proxies
pour cacher un peu l'adresse
des attaquants
et aussi le bénéfice que ça peut
donner c'est qu'on peut localiser l'attaque
donc plutôt que d'avoir
une attaque qui a pour origine
la Russie par exemple
juste un exemple
et bien on peut si on attaque par exemple la Lituanie
prendre un paquet d'adresses IP
de proxies en Lituanie
donc ça permet du coup d'être beaucoup plus précis
dans l'attaque et aussi d'éviter
certains mécanismes de défense
qui sont de ce qu'on appelle le geoblocking
donc en gros certains sites
quand ils sont attaqués vont dire
tiens moi je suis un site qui suis basé en France
je vais bloquer tout ce qui est en dehors de la France
donc ça c'est un peu bon
un mode dégradé mais c'est pas idéal
parce que justement tu vas bloquer
du coup l'accès au service
des français qui sont à l'étranger
ou voilà des gens qui voyagent
donc du coup c'est pas idéal
ça fait du faux positif
dans ce cas là
mais tu peux aussi du coup tu loupes
toutes les attaques qui viennent
depuis la France, ce qui est de plus en plus
courant donc ça c'est un peu
pour ce que ça permet
et donc ces proxies résidentielles
c'est tout simplement
enfin c'est pas des gens qui vont aller installer à Squid
un des logiciels se faire
pour les proxies sur leur serveur à la maison
c'est juste des gens
normaux qui installent des extensions chrome
ou des vpn gratuits
sur leur mobile, sur leur pc
et parce que ça service gratuit
quelque part le business
se fait autrement
donc ça veut dire que le fournisseur
de l'extension ou du vpn gratuit
va monnaier enfin va revendre l'accès
à l'adresse IP
à d'autres personnes dont
les fournisseurs de proxies résidentielles
t'installer ton extension chrome
mais t'es pas forcément courant
qu'en arrière-plan il y a un dédose qui ne peut pas se passer de toi
voilà donc après c'est
c'est marrant parce que du coup
il y a certains services de proxies résidentielles
qui se disent comme étant sourcés de manière
éthique
parce que justement ils mettent dans les termes
et les conditions du service
ils disent oui on peut peut-être utiliser
votre adacipé mais sans être très clair
si vous consentez donc évidemment le truc
fait 40 pages donc personne ne lit
donc du coup
ils disent que ça a été obtenu de manière
consentie par l'utilisateur
et d'autres complètement qui font ça
de manière un peu plus sauvage on va dire
mais le résultat le même
et donc on voit
une augmentation de ce genre d'attaques
qui passent par ce genre de proxies
donc après c'est pas des attaques qui vont être
beaucoup de volumes de trafic
donc c'est plus d'attaques justement au niveau applicatif
donc c'est donc d'en parler un petit peu avant
qui vont permettre de localiser le trafic
et puis d'être plus difficile du coup
à détecter et à protéger parce que ça va être
on va avoir
quelques milliers d'adresses IP
qui vont être des adresses IP qu'on n'a pas vu avant
donc on n'a pas vu impliquer
dans des attaques
avant qui n'ont pas de bot
particulièrement chez eux donc du coup c'est plus difficile
ça passe un peu plus sous le
sous la vague
et justement sur ce côté
masquage des attaques
sur la marquette peste qu'on réalisait tout à l'heure
ils expliquaient qu'ils étaient en mesure
de contourner les protections
d'OVH et de Cloudflare par exemple
est-ce que c'est vrai ?
donc là dessus ça je teste un peu moins
parce que c'est juste
en gros ce qu'ils font c'est tout ce qu'il y est
protection de captcha
donc en gros surtout sur les sites web
donc une des mesures de défense
surtout pour les sites
c'est de faire ces captchas
que tout le monde je pense a vu soit que chez une case
ou résoudre
sur quelle case il y a des bus
des motos vous connaissez
donc l'explication c'est que c'est pour
se protéger en fait d'un dédoss
c'est pour se protéger
enfin pas seulement dédoss mais plus
en gros de manière tout ce qui est
trafic programmatique donc avec des robots derrière
donc que ce soit du dédoss
ou que ce soit juste du scraping
c'est un peu pour
essayer de différencier des
machines de l'homme
donc on voit que c'est un peu ça
et du coup
ces contournements là
enfin c'est vrai ce qu'ils disent
là dessus
je pense que de toute façon c'est toujours
un espèce de
jeu un peu du chat et de la souris
donc peut-être qu'à un moment ça marche
mais que ensuite Clair de Flair et
OVH
donc patch
pour des mises à jour pour éviter ça
donc là dessus j'ai moins testé
mais oui je ne serai pas surpris
qu'évidemment à un moment ça marche
mais que très rapidement ils doivent adapter leurs méthodes
et d'ailleurs quand on suit un peu
les opérateurs de
dédoss sur leurs canaux au télégramme
on voit un peu, ah oui on a
là pour l'instant on est en mode maintenance
sur le côté, sur cet at-act
donc
en gros étant un petit peu on va revenir
on va faire quelques améliorations
ça commence à moins marcher
donc ils retirent un peu, ils étudient
qu'est-ce qui a été changé du côté
des défenseurs on va dire
et ensuite pour adapter
un peu leur méthode d'attaque
c'est quoi les trucs intéressants marrants
que tu as vu sur ces conversations
tu parlais du fait qu'ils étaient contents
enfin non ça c'était plutôt pour les
activistes qui sont contents qu'on parle d'eux
mais ouais je sais pas y a des
un truc qui est quand même pas anodin
dans son métier d'être
scrollé sur télégravus
oui oui non
c'est après c'est vrai que je suis un peu
moins intention aussi, enfin sur le côté
enfin les échanges on va dire, enfin au sein
du truc, enfin de l'opérateur
c'est plus, ouais ce qui m'amuse c'est vraiment le mode maintenance
enfin c'est fait tellement genre
on veut être un peu professionnel
donc en gros on va avoir un peu
un comportement d'opérateur
responsable et puis on va prévenir
les utilisateurs quand ça marche pas
et d'autres qui sont plus en mode un peu amateur
qui vont dire ah bah oui
ou que là ça marche pas
puis tant pis quoi
moi j'ai une question pour revenir sur la IoT
imaginons j'ai une caméra
qui est vulnérable
et donc qui fait partie d'un botannet
on la voit plusieurs fois revenir
dans vos analyses et donc on peut se dire
on la banne
sauf que le problème c'est que si on
banne cette IP
on banne potentiellement un utilisateur humain
qui est aussi derrière son PC parce que c'est la même IP
mais donc du coup
la conclusion c'est
cet utilisateur là il va plus pouvoir
agir
un dommage collatéral
il va être impacté par ce ban d'IP
ça va dépendre un peu de la méthode
de défense puisque par exemple nous ce qu'on fait
c'est pas enfin c'est vrai qu'on va
essayer d'être le plus fin possible dans
ce qu'on va bloquer comme trafic
et on va ne bloquer le trafic que
des IP
enfin en gros des appareils qui sont compromis
mais vers des décisions précises
qui sont sous attaque donc on va pas
bloquer l'ensemble du trafic de cet IP
mais plus juste
le trafic de cet IP vers
la cible de l'attaque
donc comme ça on va être un peu plus fin
il peut toujours y avoir
des faux positifs
ça c'est clair
surtout si c'est une IP par exemple
qui est partagée par plusieurs utilisateurs
il peut y avoir plus de chance
pour qu'il y ait un peu d'impact
sur l'IP même si ça reste toujours
après en fonction de la destination
donc effectivement mais
c'est toujours un problème en fait
d'ajuster la réponse pour
minimiser le faux positif
et le faux négatif parce que
effectivement on peut
on dit souvent le Didos c'est hyper facile
de la bloquer
on coupe tout le trafic
il n'y a plus de Didos
après l'aséation est complètement inaccessible
ça c'est un autre problème
mais ce qui est compliqué c'est vraiment
de bloquer que le Didos
et de laisser passer le reste du trafic
donc c'est vraiment ça en fait
qui est l'effet un peu de tous les jours
de notre équipe en particulier
mais aussi de toutes les sociétés qui font de Didos
c'est comment est-ce qu'on arrive à défendre
sans en impactant le moins possible
le reste du trafic qui est légitime effectivement
et ça va être de plus en plus important
puisque pour finir avec un petit chiffre
ça double à peu près tous les jours en gros
c'est à dire ça a plus de 168%
par an sur le trafic des Didos
voilà donc je crois que c'était
effectivement notre chiffre de cette année
après les chiffres varient un peu en fonction des vendeurs
mais en gros ce mode de OES ça double tous les ans
alors que l'ensemble du trafic
donc du coup notamment cette année commence à ralentir
un petit peu donc enfin en tout cas la croissance ralentit
donc alors que le Didos effectivement
le Lune ne s'arrête pas
trop hanté à ça
merci énormément c'était trop pas sueton
c'est pas tous les jours qu'on a des experts
des Didos, honnêtement
il doit pas y en existait de mon plus
beaucoup je sais pas
c'est un petit moment mais c'est pas mal
merci beaucoup Jérôme d'avoir passé
ce moment avec nous
et nous on va se quitter tout simplement
parce que on est fatigué
et on va se retrouver
dans 2 semaines
tout à fait 6 ans
il y aura des petits ajustements plus tard
mais les petits ajustements on peut les annoncer
on se retrouve dans 2 semaines et dans 3 semaines
parfait
voilà c'est juste ça la fin et après c'est Noël
et donc on se retrouve
en janvier
donc à 2 semaines à 19h n'hésitez pas à follow cette chaîne Twitch
si vous êtes arrivé en cours de route
les parties seront bien sûr publiées sur Youtube
et sur ce
vous faites des gros bisous, très bonne soirée
merci encore Jérôme
bonne soirée

Les infos glanées

Je suis une fonctionnalité encore en dévelopement

Signaler une erreur

Underscore_

IA, Hacking, Robotique — Des conversations de terrain avec ceux qui construisent. 🥨


Partenariats: underscore@micorp.fr


---


Hébergé par Acast. Visitez acast.com/privacy pour plus d'informations.

Tags
Card title

Lien du podcast

[{'term': 'IA', 'label': None, 'scheme': 'http://www.itunes.com/'}, {'term': 'Investissement', 'label': None, 'scheme': 'http://www.itunes.com/'}, {'term': 'Nouvelles Technologies', 'label': None, 'scheme': 'http://www.itunes.com/'}, {'term': 'Tech', 'label': None, 'scheme': 'http://www.itunes.com/'}, {'term': 'Actu tech', 'label': None, 'scheme': 'http://www.itunes.com/'}, {'term': 'Cybersécurité', 'label': None, 'scheme': 'http://www.itunes.com/'}, {'term': 'Développement', 'label': None, 'scheme': 'http://www.itunes.com/'}, {'term': 'Dev', 'label': None, 'scheme': 'http://www.itunes.com/'}, {'term': 'Entreprenariat tech', 'label': None, 'scheme': 'http://www.itunes.com/'}, {'term': 'IT', 'label': None, 'scheme': 'http://www.itunes.com/'}, {'term': 'Robotique', 'label': None, 'scheme': 'http://www.itunes.com/'}, {'term': 'Technology', 'label': None, 'scheme': 'http://www.itunes.com/'}]

Go somewhere