L'IA est en train de s'empoisonner elle-même (et personne n'en parle)

Durée: 63m47s

Date de sortie: 28/01/2025

Hébergé par Acast. Visitez acast.com/privacy pour plus d'informations.

Pourquoi Banque Populaire est la première banque des entreprises ?
Je me posais des questions sur le partage de la valeur pour mes salariés.
Elodie, ma conseillère Banque Populaire, m'a proposé une solution d'épargne salariale sur mesure,
rapide à mettre en place et que je peux piloter en ligne.
C'était simple et surtout ça a fait des heureux.
Accompagner nos clients sur tous les territoires avec des solutions adaptées à leurs besoins,
c'est ça, être la première banque des entreprises, Banque Populaire, la réussite est en voulue.
Étude Quantar PMEP, mid-2023, Quatorze Banques Populaires, première banque des PM.
Et on reçoit pour ça Louvna. Bienvenue.
Merci, merci pour l'invitation.
On est très contents de t'avoir. Est-ce que c'est ta première fois sur Twitch ?
Oui.
C'est vrai ? Alors pourtant tu as fait du toll, que c'est pas non plus ton premier.
Ouais, mais pas sur Switch.
En cas...
Ah c'est jamais diffusé sur Twitch ?
C'est pas jamais diffusé.
Ouais, bizarre ça.
Ouais, peut-être faut le faire.
En fait souvent c'est sur YouTube après, mais c'est vrai qu'ils le font pas en live.
Ouais en général c'est juste un record et après c'est sur YouTube.
Mais déjà il y a même pas toujours des questions.
Mais tu peux avoir des questions de chat et tout.
Je dis ça mais on est en live et on prend aucune position.
Alors, j'ai le chat sous la chute.
C'est bien, c'est bien.
Et donc pour expliquer, tu es dans l'équipe Science de Huggingface.
Qui est une boite qu'on ne présente quasi plus.
On va quand même le présenter.
Mais on avait déjà reçu au moins...
C'est une ou deux personnes pour toi ?
Moi je dirais une mais j'ai peur de faire une boulette.
C'est une ouais.
C'est Arthur.
C'est Arthur, ça c'est sûr, on a reçu Arthur de Huggingface.
Parlez de l'Amma 3.
C'est ça.
Donc nous on est ravis de t'avoir, ça va être trop intéressant.
Et surtout que ta spécialité entre guillemets va beaucoup nous aider aujourd'hui.
Et sûr on va entre autres parler de l'entraînement des IA.
Et un petit peu des craintes qui peut y avoir autour des données de la manière dont évolue Internet.
Et comment ça peut impacter justement l'entraînement.
Ton expertise va beaucoup nous aider.
Déjà avant de rentrer dans ce sujet-là,
est-ce que tu peux nous présenter ce que tu fais de base chez Huggingface ?
Et voilà, quoi ressemble ta journée ?
Dis-nous tout.
Ouais, avec plaisir.
Donc moi je suis chercheuse dans l'équipe Science de Huggingface.
Et je travaille sur l'entraînement des modèles.
Notamment des petits modèles qui peuvent tourner au local.
Par exemple sur téléphone ou sur MacBook.
Et du coup je travaille beaucoup aussi sur la partie traitement de données.
Donc on va parler de ça après et aussi sur la partie trainin.
Et du coup ma journée, souvent je regarde sur Twitter s'il y a de nouveaux papiers.
Donc tous les jours il y a de la nouveauté.
C'est plus possible de tous les lire de toute façon.
Exactement.
C'est le gars de... c'est...
Martin ? Non.
Non, c'est Tom Maciallum qui nous a dit ça.
Oui, de Facebook.
Que c'est plus possible de tout suivre.
C'est vraiment difficile de tout suivre.
Ouais, faut savoir un peu filtrer.
Et du coup après je fais un peu de code.
Ouais j'essaye de lancer des jobs sur notre cluster pour entraîner les modèles.
Et ouais c'est un peu ça.

Ouais.
Les clusters c'est un peu les GPU sur lesquels on entraîne les modèles.
Lancer des jobs c'est lancer des entraînements de modèles.
Donc souvent j'en fais ça.
Est-ce que il faut se battre un peu pour avoir accès au cluster de...
Ouais, donc heureusement à Giffet je pense qu'on est quand même une petite équipe
et on a assez de ressources pour les expériences qu'on lance.
Donc parfois ça peut arriver à d'avoir un peu quelques petits problèmes
et on gênera assez résolues, assez facilement.
Moi j'ai une question avant qu'on se lance dans le visite du sujet.
Mais je me suis toujours lendé, une boîte comme GingFest
qui est un petit peu pour que vous expliquez au gens le GitHub.
Ce que GitHub est au code...
Vous êtes modèle de DIA.
Ce que GitHub est au code.
Donc la place du village, l'endroit où on stock, on fait évoluer, on publie les modèles de DIA.
Pourquoi vous-même vous faites vos propres modèles ?
En fait, pourquoi ?
C'est une question qui revient souvent.
Je crois que à GingFest c'est surtout connu pour la plateforme, pour partager les modèles et les dataset.
Et surtout l'équipe Open Source, on a délibéré contre Trans en Mars.
On a aussi une équipe Science, donc c'est une équipe qui fait des projets un peu plus recherches
et en fait le but de cette équipe c'est vraiment d'épauler la communauté dans la partie entraînement des modèles.
Donc on essaie notamment de voir où il y a un peu un vide dans la recherche et essayer de combler ce vide.
Par exemple, quand on parle de préparation de données, aujourd'hui il y a beaucoup de modèles qui sont publics
mais il y a très peu de dataset.
Même les détails sur ces dataset ne sont pas publics.
Et du coup, nous on essaie de faire un peu de la recherche, de lancer nos propres expériences
pour pouvoir un peu partager les connaissances autour du traitement des données.
Et donc ça c'est pour le projet de recherche en données.
C'est toujours un p'tit pédagogique en fait.
Du coup, on sort quand même des releases par exemple.
On a sorti le dataset FindWeb, c'est le plus gros dataset pour entraîner des élèves.
Mais c'est pas juste à quantité, il y a vraiment de très bonnes qualités.
Pareil, on entraîne des petits modèles comme ça les gens, ils auront en plus d'options pour développer ces modèles et les utiliser.
Donc en général on essaie de reproduire un peu ce que les laboratoires font
mais plutôt en closed source, ce n'est pas des trucs qui sont publics.
On essaie de faire cette recherche là et de partager ça avec la communauté.
Donc on est vraiment très transparent sur toute la pipeline de développer ces modèles.
Et comme ça ça va aider la communauté pour développer d'autres choses au-dessus.
Bon, et bien justement, il y a plein de trucs que tu as évoqué là.
On va tout détailler et expliquer petit à petit pour que tout le monde puisse suivre.
Et surtout, on va aborder ce sujet qui nous intéresse aujourd'hui.
Qu'il y a le suivant, on sait qu'il y a le nerf de la guerre aujourd'hui
ce qui rend les modèles particulièrement pertinents, c'est leur jeu de données.
Le fait qu'il soit de qualité et qu'il soit gigantesque tout simplement.
Et dans le même temps, depuis 2022, on voit de plus en plus de contenus générés sur internet.
Donc qui sont faits par des IA, des articles de presse, des blogs, des images générées, des TikToks générés.
Si vous avez forcément vu ça sur YouTube.
En deux ans, on a quand même vu une évolution pas encore apocalyptique évidemment,
mais on commence à voir, à se dessiner un futur où une partie d'internet est en fait générée.
Et ça, ça pose pas mal de questions, ça interpelle beaucoup de gens.
Sur le fait que, est-ce que ces dataset vont être un peu pourris ?
Est-ce que les IA du futur, il y a l'expression garbage in, garbage out ?
Est-ce que les IA, à force d'avaler ce qu'elles produisent, vont finir par devenir complètement stupides ?
Est-ce qu'on a comme ça à temps une sorte de plafond ?
Justement, c'est notre sujet du jour et je te propose qu'on explique un petit peu d'abord d'où ça part.
C'est quoi ce qui se cache en fait derrière l'entraînement de ces modèles ?
Et petit à petit, qu'est-ce qui est légitime comme crainte versus qu'est-ce qui est un peu fantasmeé éventuellement ?
Donc l'Ubna, la raison pour laquelle on t'invite justement, c'est que tu es spécialisé exactement dans l'entraînement de modèles et la construction de dataset.
Est-ce que tu peux nous expliquer déjà, pour nous aider à nous faire notre avis, tu peux nous expliquer depuis combien de temps tu travailles là-dedans
et si ça fait longtemps que cette inquiétude, tu la vois passer ? Tu vois c'est quoi ton point de vue ?
Oui, donc moi j'ai rejoint à Guineface il y a à peu près trois ans et je travaillais sur l'entraînement des modèles depuis le début.
Donc c'était plus des modèles de générations de code et maintenant c'est des modèles un peu génériques.
Et je crois que cette crainte, on commence à en parler surtout cette année parce qu'il y a beaucoup de labos qui utilisent des données synthétiques pour entraîner leur modèle
et on commence à voir beaucoup de contenus générés par l'IA sur le moteur de recherche et un peu partout.
Je crois par exemple, j'avais lu qu'Ubna, ils ont plus que trois sons utilisateurs de ChargerPT par semaine
et par exemple sur Guineface on a plus qu'un million de modèles donc c'est énorme quand même
et on commence à se rendre compte de l'amplitude de ça maintenant.
Oui, que ça commence à avoir un impact sur le web, là où avant c'était éventuellement pas encore visible.
Pour reprendre du début, la question centrale en fait c'est celle de la qualité des données d'entraînement
puisqu'il paraît que les modèles qu'on a aujourd'hui qui sont super forts, donc les GPT4, les Claude, etc.
En fait, ils sont littéralement entraînés sur tout internet. C'est ça ?
Oui, exactement. En fait, on veut que ces modèles savent un peu tout et sur internet on a tout.
Donc c'est vraiment la source principale pour entraîner ces modèles.
On peut aussi avoir des livres, des PDF, du code mais le web c'est vraiment la source majoriteur.
La question va être, comment c'est possible ? En gros, comment tu donnes genre internet en entier à entraîner ?
Exactement. Internet c'est énorme. En gros, par exemple, nous les données concrées, c'est à partir d'internet.
Normalement on peut crawl ça. Ce qu'on appelle du crawl-in, c'est le fait de télécharger ses pages web.
Donc on peut soit crawl ça à partir de domaines que nous on connaît mais ce n'est pas vraiment très skillable.
Donc il y a des, par exemple, une plate-forme qui s'appelle CamelCrawl.
Donc eux, ils font justement du crawl-in depuis 2007.
Tous les mois, ils sortent des versions du web qui ont crawl.
Donc en fait, c'est des dons qui ont téléchargé. Ça va être du HTML avec ce qu'il y a dans les pages web dedans.
Donc concrètement, eux, ce qu'ils ont de leur côté, c'est les petits robots qui baladent.
Oui, qui crawlent les sites web. Exactement.
Du coup, il y a à peu près quasiment vraiment très grande portion d'internet donc comme un crawl.
Et ça représente combien ? Quel taille ? C'est en giga ou en page ?
En or, par exemple, ils sortent tous les mois une version du web.
Donc il y a vraiment plusieurs versions. Je crois un mois, c'est entre 200 terabytes, c'est 400 terabytes de texte non compressé.
Ok.
Oui, c'est gigantesque.
Gigantesque. C'est gigantesque et en même temps, je ne sais pas comment dire mais je arrive à me figurer.
Tu vois, j'ai un discours de Terra.
Ah tu peux maintenant ?
Tu peux t'en acheter 50 ou...
Ouais, tu as internet quoi.
Ah ça c'est un mois.
Ah !
Alors non, non, non. En fait, on entre, je crois, sur peut-être 100 mois ou un truc comme ça si on ne veut pas avoir un début de 13.
C'est que les nouveautés ?
Exactement, tout les mois c'est entre 200 terabytes et 400 terabytes.
D'accord, ok.
Du coup, il va falloir 100 disques durs.
Ok, ok.
Ah, donc vous prenez 100 mois ?
Oui, en fait, parce que genre le contenu des pages web, il change.
Donc...
Ça fait combien ? 100 mois ?
100 mois x 400 terabytes,
Égal, affiché sur votre écran, en tout cas, c'est énorme.
Et donc, Common Crawl, c'est les seuls qui font ça ?
Du coup, eux, ils le font vraiment à très grande échelle.
C'est une boîte à but non lucratif.
Et du coup, la plupart des gens, ils passent par Common Crawl, sinon, par exemple OpenAI et Intropic, eux, ils font leur propre crawl-in,
parce qu'ils ont assez de ressources pour faire ça.
Donc pour eux, c'est eux, Common Crawl, ils crawlent les sites web eux-mêmes, mais c'est très dur.
Du coup, pour nous, par exemple, on n'est passé par Common Crawl, pour d'autres boîtes, comme Alenéa et d'autres, on passe par ça.
Ok, donc en fait, tu disais qu'ils ont peut-être une couverture un peu de 90%.
Oui, ils manquent quand même quelques...
Mais pour les plus compétitifs, il faut développer son propre système pour essayer d'être encore meilleur, c'est ça ?
C'est ça. Parce qu'ils ont quand même des ressources, je crois, peut-être un peu limitées.
Donc parfois, c'est possible qu'il y ait des domaines qui ne sont pas très bien couverts.
Donc si on veut être sûr de vraiment tout couvrir, c'est toujours mieux si on fait un autre propre crawl-in.
Ok. Donc, de ce que j'ai compris, toutes ces données, ces terrains, ces terrains de données d'Internet, vont derrière servir à l'entraînement.
Mais ce n'est pas non plus 100% de ce que j'ai compris, c'est 90%.
Pas du tout.
Non ? Ok.
On enlève 90%.
Oui. Alors ça, on va y venir après.
Exactement.
On va y venir sur le filtrage.
Oui.
Mais juste, en termes de sources pure de données.
Oui.
Donc il y a 90% si ça va être Internet, mais ce n'est pas tout.
Ça peut être moins que 90% parce qu'on a aussi du code, genre vraiment beaucoup de codes.
Alors là, on passe par GitHub, on télécharge les repo de GitHub.
Ça peut aussi être d'autres petits ressources, donc ça va être peut-être 5%, peut-être des livres, des papiers sur archive.
C'est aussi du web, mais d'autres trucs qui sont un peu plus spécialisés.
Donc tu as des bases de données qui ne sont pas vraiment Internet, genre tous les livres qui sont jamais sur le site, par exemple.

Mais le web, ça reste vraiment comme tu as dit, peut-être 80%.
Ok.
Oui, donc c'est énorme.
Et ça, ça change.
C'est un truc qui est figé.
Ou en même temps, Internet, on sait que ça évolue chaque mois, mais on scannent des livres, par exemple, pour entraîner, je tiens, JPD.
C'est un truc qui a évolué.
Oui, je crois, il y a des gens qui font ça, mais en général, la qualité des entraînements sur le web, c'est mieux que l'entraînement sur les livres.
Donc on peut les ajouter.

Parce qu'en fait, c'est vraiment énorme, c'est très divers.
Si tu entraînes juste sur des livres, le modèle, il n'aura pas toutes les capacités qu'on veut.
Et du coup, on peut quand même ajouter des livres, mais par exemple, nous, dans notre éni, il n'y a pas de livres.
Oui.
Ce peut qu'il y a des livres par accident sur le web, mais on n'a pas vraiment scanné des livres.
On aurait mis ça dans le training.
Ok, intéressant.
Et moi, il y a un truc qui m'interpelle, c'est que si jamais, du coup, tout le monde a accès à ces données, que c'est des organismes non lucratifs, etc.,
on ne comprend pas trop pourquoi t'as des modèles, du coup, qui sont meilleurs que d'autres.
Si tout le monde a accès à Common Crawl, ça vient d'où ?

Alors, en fait, accéder aux données sur Common Crawl, c'est que l'étape 1, il reste beaucoup d'étapes pour avoir un bon dataset.
Et c'est ça qui est le plus dur, comme t'as dit tout le monde.
Ok.
Common Crawl, c'est pas un dataset, du coup ?
Non, non.
C'est juste vraiment, il publie...
En fait, si tu regardes des données dans Common Crawl, c'est du HTML, le don, il y a du texte, du coup, il faut extraire ce texte et il faut après le traiter.
Il y a vraiment beaucoup d'étapes qui font qu'on a un dataset qui est de bonne qualité.
Alors, du coup, c'est là que se fait la différence ?
Oui, exactement.
Et comment, en fait, c'est quoi, les étapes, si on peut détailler ?
Oui, du coup, la première étape, du coup, ça va être de récupérer les données de Common Crawl.
Et après, comme j'ai dit, ça va être plutôt du HTML, il faut extraire le texte qui est dedans.
Et du coup, ça a un peu... On appelle ça l'extraction de texte.
Donc, il y a plusieurs libériques pour le faire.
Parce qu'en fait, imaginons une page web, en général, il n'y a pas que du texte, il y aura des barres latérales avec des publicités,
il y aura des bannières, mais on ne veut pas forcément ça, nous, on ne veut que le texte qui est à l'intérieur,
et on va entrer dans le modèle sur ça.
Et du coup, il faut vraiment traiter ce texte pour récupérer que les choses qui nous intéressent.
Donc, ça, c'est la première étape, c'est l'extraction de texte.
Et du coup, il faut faire ça sur tous les terribles à être donné, donc il faut quand même beaucoup de ressources pour faire ça.
Après qu'on a extrait le texte, on peut faire des traitements qui sont un peu basiques.
Par exemple, si on veut entraîner le modèle que sur de l'anglais, il faut détecter les données qui sont en anglais,
et filtrer les données qui ne le sont pas.
Et après, j'ai dit qu'il y a des données tous les mois, donc il y aura sûrement beaucoup de doublants.
Par exemple, il y a des pages qui y a des miroirs et des trucs qui sont vraiment hyper répétés.
On n'a pas besoin d'entraîner les modèles sur ça.
Il y a eu des recherches qui montrent qu'entraîner sur moins de doublants, ça aide.
Du coup, il faut faire ce qu'on appelle de la déduplication.
Donc, il faut aussi lancer tout ça sur tous ces terribles à être donné.
Donc, il y a très peu de gens qui peuvent faire ça vraiment à cette échelle.
Et après avoir fait la déduplication.
C'est prendre 4 cent éras, par exemple, sur le dernier mois, et aller essayer de trouver toutes les duplications.
Enfin, c'est des monstres.
Exactement.
Et parfois, il faut regarder les doublants dans tous les mois entre tous les quatre ontéracutas.
Donc, c'est énorme.
Et il ne faut pas le faire de façon naïve.
Il faut vraiment trouver le bon algorithme pour faire la déduplication.
Et c'est là où on peut faire un peu de la recherche.
C'est là où on peut avoir une différence entre les qualités des dataset.
Et après, à l'étape la plus importante, c'est vraiment le traitement.
Pour un peu filtrer les données qui sont de mauvaise qualité.
Et du coup, pour faire ça, on peut essayer de partir de l'intuition et se dire,
pas dis donc, moi je pense que les pages qui viennent de ce domaine, j'ai besoin que de ça.
Parce que, exemple, le traitement est dans ce jeu donné, en fait, il y a tout le web et tout n'est pas qualitatif.
Donc, par exemple, tu as des pubs, du marketing, tu as du bâtissage du porno sur internet.
Une bonne partie d'internet.
Comment tu filters ça ?
Ouais, du coup, c'est une bonne question.
Juste pour donner un ordre de grandeur, le dataset final, par exemple, qu'on a obtenu dans Fineweb,
c'était, je crois, 10% ou moins de ce qu'on avait au départ, Kamal Krol.
Donc, il y a une très grande partie qui est de très mauvaise qualité.
Il faut pas, je ne peux pas entrer le modèle sur ça.
Ou alors, ça fait un fortune bizarre, peut-être.
Même pas, peut-être qu'il génère.
Il va générer du texte qui est pas correct.
Et ça va être vraiment un gaspillage de ressources.
Mais du coup, pour la partie filtering et traitement de données,
on peut commencer par des filtres un peu basiques.
Chercher, par exemple, les pages où il y a beaucoup de répétitions,
par exemple, pour détecter les pages où il y a beaucoup de mots clés,
juste pour un peu manipuler les moteurs de recherche.
Donc, on a des filtres pour ça, du coup, la répétition de les pages.
On peut aussi avoir d'autres filtres, par exemple,
on cherche les pages où il y a les phrases,
ils ne se terminent pas par un point de punctuation.
Donc, ça, par exemple, ça peut être un filtre.
Mais après, on peut avoir beaucoup d'idées de filtres
que pour nous, ils ont du sens.
Mon intuition humaine me dit que ça, c'est un bon filtre.
Il ne faut pas que j'entraîne me modèler sur ça.
Mais après, ce n'est pas toujours le cas.
Du coup, on a appris ça un peu par l'expérience.
Mais il faut toujours entraîner un modèle sur le dataset qu'on filtre
pour savoir si c'est un bon dataset ou pas.
Et du coup, en pratique, comment construire les dataset,
on a des idées de méthodes de traitement, on les applique,
et après, on entraîne des petits modèles.
On voit si utiliser cette méthode est mieux que ne pas l'utiliser.
Comme ça, on est sûr qu'en fait, la intuition se traduit
pendant le entraînement.
Donc, par exemple, la ton idée d'enlever tout ce qui ne finit pas par un point,
pour, par exemple, enlever les postes redis de bizarre,
et bien, ce que tu fais, c'est que tu l'appliques sur ton gigantesque jeuné.
Exactement.
Et au lieu d'entraîner tout de suite ton gros modèle
qui va te coûter des millions, tu le mets sur un petit modèle,
et tu peux le comparer et c'est un signal intéressant, en fait.
Exactement.
Par exemple, ce filtre-là, on ne l'utilise pas parce que ça enlève beaucoup de données,
c'est juste ma pratique.
On parlait tout à l'heure avant.
Moi, je travaillais sur les modèles de génération de codes.
Donc, on entraîne sur du code qui est sur Itab.
Donc, un filtre naturel, c'est de utiliser les étoiles des ripos qui sont sur Itab.
Parce que s'il y a un ripo qui a beaucoup d'étoiles,
c'est forcément, c'est peut-être de bonne qualité.
Par exemple, transformant, on a beaucoup d'étoiles,
mais du coup, la qualité pour le code est beaucoup plus élevée que d'autres ripos.
Oui, ça, on dirait que c'est une bonne idée.
Exactement. Et du coup, on a testé ça, c'est pas du tout une bonne idée.
C'était le pire modèle qu'on a entraîné.
C'est très intéressant.
On a beaucoup de données, en fait, les données que tu as au final,
ils ne sont pas du tout diverses et tu n'arrives pas à entraîner un bon modèle dessus.
C'est-à-dire que tous les projets sur GitHub qui sont les plus populaires,
ce n'est pas forcément ce qui est le meilleur code.
Oui, ils ne donnent pas les meilleurs modèles, exactement.
Juste parce qu'il y a vraiment très peu de ripos qui ont beaucoup d'étoiles.
Je crois que pour nous, le seuil, c'était cinq étoiles
et même avec ça, on n'a pas eu beaucoup de données au final.
Donc, ce n'était pas du tout un bon filtre.
Et donc, pour donner un peu de... Ça, c'est des exemples dans le code.
Mais un truc qui parlera à tout le monde, c'est quoi ?
Des bonnes données qui sont qualitatives et un exemple de mauvaise données que tu ne veux pas.
Oui. Du coup, peut-être, un exemple de mauvaise données, parce qu'on a beaucoup.
Par exemple, du coup, les pages, il y a juste beaucoup de mots-clés,
un peu pour manipuler le moteur de recherche.
Les trucs, c'est juste beaucoup de publicités.
Je pense que c'est bien d'avoir des publicités dans tes données,
mais peut-être pas beaucoup.
Et il y a beaucoup sur Internet, donc si on trouve des méthodes
pour diminuer leur quantité, ça va être cool.
L'autre jour, j'ai vu dans une présentation à Nourri pour la semaine dernière,
ils ont montré un exemple sur Reddit.
Il y a un sabre-reddit qui s'appelle Microwave Gang.
Du coup, il y a des gens qui viennent et ils postent la lettre M plusieurs fois
pour un peu simuler le son d'un micro-hand.
Tu vois, hum...
Du coup, les gens, ils répondent « bip » pour dire que le micro-hand a fini.
Et il y a beaucoup de postes de ce type.
Et du coup, je crois qu'il y avait quelqu'un de l'année dernière,
ils ont entraîné un modèle et certainement, ils généraient beaucoup de M.
Ils savaient pas pourquoi.
Et ils ont trouvé que ça vient de ce sabre-reddit.
C'est génial.
Donc si ça se trouve sur certains modèles, tu mets le « mh mh mh ».
Ça va continuer bip ?
Ça va continuer avec bip, parce que...
Ça veut dire que tu peux faire un sabre-reddit qui va baite désir.
Mais oui, bah c'est pas...
Mais du coup, ça existe, ça s'appelle Microwave Gang.
Oui, c'est ça.
Et il y a beaucoup de trucs comme ça.
Oui.
Du coup, ça c'est pour mauvaise qualité, pour bonne qualité.
Du coup, c'est dur de dire, parce que c'est toujours bien d'avoir des données qui sont vraiment très diverses.
Mais peut-être des trucs qui ressemblent un peu à des manuels scolaires ou des textbooks,
genre par exemple une page de Stanford qui explique que l'algebra est l'une ailleurs.
Ça c'est de très bonne qualité.
Des articles, par exemple sur des blog posts, comtours, data science ou des trucs comme ça, ça peut être très bien.
Et du coup, c'est quand on peut les...
Avec l'OTAN, c'est quand on peut les...
La source secrète qui fait qu'on arrive à bien filtrer des données de qualité.
Parce que j'imagine, c'est là qu'il y a la valeur, enfin que tout le monde se bat.
On voit la valeur marchande qui est aussi derrière les IA, les Model DIA.
Ça doit y avoir un peu de secret, non, derrière les techniques.
Oui, c'est ça vraiment l'avantage concurrentiel de la plupart des boîtes.
C'est pour ça qu'ils ne partagent quasi jamais les détails.
Je pense que la source secrète, c'est vraiment de faire beaucoup d'expériences pour trouver quelle méthode des traitements marchent bien.
Pour notre data set, on a vraiment fait...
Je crois qu'on a entraîné 200 modèles petits pour tester les méthodes de traitement.
Et quand on fait ça de façon un peu expérimentale, on arrive à avoir un data set qui marche bien.
Après, on peut essayer d'innover un peu et d'avoir des méthodes de traitement, par exemple, qui utilisent d'autres élèves.
Donc, par exemple, on a testé ça, ça marche bien.
Donc, on peut trouver des idées, mais il faut toujours les tester avec des petits modèles pour savoir si ça marchera ou pas.
Donc, par exemple, au lieu d'utiliser une règle un peu automatique pour filtrer,
tu vas donner une page à un autre modèle de langage et lui dire, dis-moi si elle est qualitative ou pas.
Oui, du coup, en pratique, ce qu'on a fait, c'est que...
L'intuition, c'est que quand on essaie d'enseigner, par exemple, à l'école,
ce qu'on montre aux étudiants, c'est plutôt des manues scolaires qui sont très bien écrits,
il y a beaucoup d'informations et c'est correct.
Et du coup, on se disait, au lieu d'entraîner sur du web où il y a un peu de tout,
si on crée un data set qui est vraiment très propre, qui est assez divers,
ça ressemble à peu à ces manues scolaires, ce que ça peut être intéressant.
Et du coup, c'est quelque chose que Microsoft a fait avec leur modèle FI, je ne sais pas si vous avez vu.
Ils avaient un pay-park qui s'appelait TxBoox All Unit.
Et du coup, en gros, ils ont créé des données qui ressemblent à des manues scolaires,
les premières synthétiques que j'ai générées par d'autres modèles, ils ont entraîné sur ça.
Et du coup, nous, ce qu'on a fait pour vraiment scale, on a pris des pages web et on a demandé à NLM
de donner la valeur éducative de ces pages web de 0 à 5.
Et après, on a gardé que les données qui avaient un score supérieur à 3.
Et ça marche super bien.
Ah, il est très intéressant.
Du coup, le point de départ, c'est un papier qui dit que, en gros,
si tu enlèves tout le reste d'Internet et que tu gardes que les trucs qui ressemblent à des manues scolaires,
des IACs continuent de bien marcher.
Oui, du coup, ça, c'est plus une analogie parce que ce qu'on garde,
ce n'est pas des trucs qui sont des manues scolaires, mais des trucs qui ont quand même une valeur éducative.
Par exemple, ils parlent d'un sujet qui peut être intéressant à l'école,
ou ils sont bien écrits.
Et du coup, tu peux choisir ton seuil de traitement en fonction de ce que tu veux garder.
Par exemple, si tu lises le seuil 5, tu n'auras que des manues scolaires.
Si tu lises un seuil qui est un peu moins élevé, tu auras des données qui sont assez diverses.
Et il y a un truc aussi qui va toujours un peu entriller.
Mais moi, je ne sais pas à quel point c'est la spéculation et tu peux nous éclairer.
Mais c'est qu'on a pas mal parlé de l'internet textuel.
Mais il y a pas mal d'histoires sur le fait que les tout meilleurs modèles,
une des raisons pour laquelle ils sont aussi bons, c'est qu'ils n'ont pas que du texte,
mais potentiellement, ils vont se baser sur des bases de vidéos.
Donc, soit peut-être des films ou YouTube ou des choses comme ça.
À quel point c'est une réalité?
Du coup, je crois, la motivation derrière ça, c'est que les vidéos sont vraiment très riches.
Et juste une seconde, il y a beaucoup d'informations concernant la physique, concernant le tout.
Donc le fait d'entraîner sur ça, ça donne nos modèles plus de capacités en termes de raisonnement
qui vont probablement aussi aider pour la partie texte.
Donc je ne pense pas qu'il y a eu vraiment des comparaisons entre les modèles entrés sur du texte,
la vision, parce que c'est quand même très différent.
Non, mais c'est pour moi ce que je restais sur la question, la transcription pure.
Je ne parlais même pas encore de l'image réelle.
Mais aujourd'hui, par exemple, si moi je veux créer un modèle qui a des connaissances qui...
Comment dire?
Il y a plein de connaissances qui ne sont pas sur Internet, mais qui existent par exemple des podcasts,
dans des conférences sur YouTube.
Aujourd'hui, c'est donné là.
Comment on fait pour les avoir?
Oui, ça c'est une bonne question. Je pense que jusqu'à maintenant,
il n'y a pas vraiment beaucoup de gens qui ajoutent des podcasts,
mais ça peut être intéressant peut-être qu'au Penay, ils font ça et ça fait partie de leur secret de sens.
Mais je pense pour l'instant, c'est majoritairement du web et ça aide.
Peut-être si tu veux un modèle qui est vraiment spécialisé sur un domaine où on n'en parle que dans les podcasts,
là, ça peut être vraiment intéressant d'ajouter ces données.
Mais si c'est vraiment des informations qui sont déjà sur le web,
je pense qu'il y a déjà beaucoup de podcasts.
Ok.
Je crois qu'on se sous-estime parfois à ce qu'il y a sur le web.
En tout cas, il y a peu de chance qu'ils en parlent publiquement en Penay parce qu'ils sont déjà un peu dans la sauce avec les ayants droits.
Oui, ils ont un procès avec Google pour YouTube, je crois.
Je ne sais pas quel est le...
Un procès ou en tout cas, ça se bat.
Voilà.
Ce n'est pas la sous quelle forme, mais ça se bat.
Mais avec tous les ayants droits, dans tous les cas, il y a des vraies questions autour de ça, mais qui ne sont pas simple, honnêtement.
Il paraît qu'il y a aussi une gestion très subtile des proportions.
Donc, on a beaucoup vu ce qui permettait de filtrer.
Et on prend peu le temps justement de bien comprendre toute cette phase d'entraînement,
parce que vous allez voir derrière sur les questions que ça pose sur l'évolution du web et comment ces jeux de données peuvent être corrompus.
Ça a vraiment son importance.
Il n'y a pas que le filtrage, il y a aussi la proportion, la répartition entre différentes langues par exemple, c'est ça, qui va jouer.
Du coup, entre différentes langues, mais aussi entre les sources, parce que par exemple, comme j'avais dit, on peut avoir des données du web,
mais aussi des données du code, peut-être des données de maths.
Donc il faut savoir un peu quelle proportion on donnait pour chaque dataset.
Et pour se faire voir, il faut aussi faire beaucoup d'expériences et entraîner des petits modèles.
Parfois, on peut entraîner des petits modèles, mais parfois il faut vraiment entraîner des modèles qui sont plus grands,
parce que ça n'interpore pas toujours.
Donc ça, ça peut être aussi un peu tricky.
Mais oui, les proportions, c'est aussi important, parce que par exemple, moi je veux un modèle qui est très bon en anglais, mais aussi bon en code.
Et si j'augmente la proportion de code, il va forcément être mieux en code, mais je ne veux pas qu'il soit moins bien en anglais.
Donc il faut vraiment trouver un compromis.
Donc en fait, c'est un peu comme si tu étais en train de construire une classe sur un jeu vidéo et tu dois augmenter un peu les capacités, mais elles sont toutes liées en fait.
C'est ça ?
Oui, exactement.
Est-ce qu'il y a des trucs qui sont un peu contraintuitifs là-dessus ?
Parce que là, l'exemple que tu donnes, c'est que tu mets plus d'anglais, il est meilleur en anglais, tu mets plus de code, il est meilleur en code.
Est-ce que c'est vraiment simple comme ça, ou il y a des choses qui sont un peu contraintuitives ?
Oui, c'est pas très simple.
Par exemple, si on ne met pas du tout le code, comparé si on met par exemple 20% de code, le modèle sera mieux en anglais et en code, si j'ajoute ce 20% de code.
C'est apparemment ça aide pour le raisonnement.
Oui, donc l'existence de données de programmation aide à l'anglais.
Oui, parce que pour l'anglais, on teste plein de choses, on teste les connaissances, on teste le raisonnement, et du coup, par exemple, pour le raisonnement, le fait d'avoir du code ça aide.
Même si tu ne vas jamais programmer quoi ?
Oui, même si tu ne sais jamais le modèle, c'est bien de mettre du code.
C'est marrant.
Et sur les langues, au début, on avait des modèles qui parlaient quasiment que anglais.
Derrière, on a vu, on attendait avec impatience ceux qui parlaient bien français.
J'imagine que toutes les langues attendent toujours des améliorations.
C'est pareil, est-ce que du coup, mettre plus d'une langue, ça détère les autres ?
C'est la guerre quoi ?
Oui, c'est un peu comme le code.
Déjà, ça dépend de la taille des modèles.
Les modèles qui sont plus petits en général, ils ont moins de capacité, donc ça va être un peu dur de fixer plusieurs langues.
Mais en général, il y a de transferts de connaissances entre les langues.
Donc ça aide d'avoir plusieurs langues.
Comme ça, le modèle, il peut voir le même concept en plusieurs langues.
Ça peut aider pour le raisonnement.
Donc c'est bien d'avoir plusieurs langues, mais il y a quand même une limite des langues que tu peux avoir.
Et en général, les gens, ils entraînent, pas seulement pour avoir un modèle qui est meilleur en anglais,
la proportion d'anglais, elle va être plus élevée que pour les autres langues.
Et après, j'imagine que dans les données, c'est le cas.
Il y a déjà énormément d'anglais.
Exactement.
Ok, hyper intéressant.
Et donc en fait, c'est pas juste une histoire de faire plaisir à telle ou telle langue.
C'est juste, on a tout s'intéresse à ce qu'il y a un max de données de langues variées.
Oui, exactement. De données de bonne qualité, du coup.
Ok.
Il paraît qu'il y a aussi un ingrédient secret.
C'est d'en fait, d'introduire les données de bonne qualité vers la fin de l'entraînement.
Ça paraît très étrange.
Oui, ça c'est quelque chose de très nouveau.
Oui, c'est très étrange, parce que en général, quand on entraîne ces modèles,
en fait, c'est un réseau de neurones et ils se déplacent un peu dans un espace.
Et vers la fin, ils se déplacent pas beaucoup.
Donc, c'est un peu contradictif.
Il faut l'en repenser, qu'il faut les introduire au départ.
Mais oui, maintenant, en fait, on garde les données de meilleure qualité un peu vers la fin
et ça donne un peu un boost qui est supérieur à les introduire avant.
Aussi, parce qu'en général, ces données sont très petites.
Donc, si on les introduit en milieu et il faut vraiment entraîner le modèle pendant longtemps,
on va faire beaucoup de répétition sur ces données.
Donc, parfois, c'est mieux de les garder vers la fin et faire un peu de répétition sur ça.
Salut ! Si vous appréciez Endorscore, vous pouvez nous aider de ouf !
En mettant 5 étoiles sur Apple Podcast, en mettant une idée d'invité que vous aimeriez qu'on reçoive,
ça permet de faire remonter Endorscore.
Voilà. Telle une fusée.
Bon, on a un peu mieux compris comment se passait cet entraînement.
Mais, là maintenant, il y a un problème.
Le problème que les gens réalisent pas forcément, c'est qu'il y a une pénurie, en fait.
Il n'y a plus de données, là.
Tu mentionnais les nouvelles données du web chaque mois,
mais proportionnellement, de ce que j'ai compris,
on a bien essoré ce qui était disponible actuellement, c'est ça ?
Du coup, je pense que c'est peut-être le cas pour des modèles comme GPTK, TrigCloud.
Mais pour, par exemple, les modèles en open source, je pense qu'on a quand même quelques données à voir.
Il faut quand même lancer des expériences et essayer d'avoir de données de meilleure qualité
pour pouvoir se rattraper justement au modèle comme GPT4.
Mais c'est vrai qu'il n'y aura pas une infinité de données à un certain moment,
juste entre les deux modèles qui sont plus grands sur plus de données, ça ne va pas être faisable.
Donc, ce qu'il faut faire maintenant, c'est trouver des méthodes pour mieux traiter ces données,
comme ça, même si la qualité est plus faible ou est constante,
ils vont nous donner des pertes qui sont plus supérieures.
Ça, c'est intéressant parce que tout le monde regarde très près, évidemment, les meilleurs modèles,
les flagships qui repoussent de plus en plus les possibilités.
Et on sait qu'il y a des règles très simples, c'est plus de ta donnée,
et plus de performances de compute qui allouent à l'entraînement,
mais on sera ton modèle à la fin. C'est une simplification, mais en gros, c'est ça.
Donc, le fait qu'il y ait une pénurie, qu'on soit un peu arrivé à optimiser
quasiment parfaitement toutes les données qu'on a, côté, je parle bien de GPT4 et des très gros,
c'est quand même une vraie question. C'est quoi l'après ?
Qu'est-ce qui est possible maintenant ?
Du coup, il faut entraîner des modèles de façon plus efficace.
Donc, ça peut être la partie de traitement de données, essayer de les traiter de façon plus efficace,
comme ça, même si c'est la quantité constante, j'aurais de meilleurs pertes.
Il y a aussi des méthodes comme, les gens parlent beaucoup de ça, mais O1,
du coup, au lieu de se focaliser sur le training, essayer de se focaliser plus sur l'inférence.
Donc, donner un modèle plus de temps pour réfléchir, utiliser des méthodes qui font que leurs générations
aient soire en meilleur par rapport à s'ils ne font pas ça.
C'est un peu la triche, du coup, entre guillemets, c'est à dire que...
Non, mais en fait, c'est vrai que c'est pas aussi évident que générer la réponse du premier coût,
mais si en fait on arrive à réduire le coût d'inférence, on ne voit pas sentir cette latence.
Et du coup, ça va être comme si c'était la génération qu'on a eu du premier coût.
On peut aussi essayer d'explorer d'autres architectures qui sont peut-être plus efficaces.
Donc, il y a des questions un peu ouvertes sur What's Next.
Et il y a un dernier truc qui est quand même vachement intéressant et intrigant.
C'est le concept de générer des données synthétiques.
Qu'est-ce que c'est que cette histoire ?
Oui, alors peut-être les données synthétiques pour expliquer aux gens,
ce sont les données qui sont générées par des IA.
Donc, ça peut être par exemple, le JPD ou Gemini, mais aussi des modèles Open,
comme Coin ou Lama, ça peut être du texte ou des images.
En gros, c'est tout ce qui n'est pas généré par des humains, mais par des IA.
Et maintenant, en fait, on entraîne les modèles sur ces données-là,
qui sont générées par d'autres IA.
Donc, ça paraît de base.
On voit la boucle.
Mais pour commencer par le cas simple,
moi celui que je connais, c'est typiquement entraîner un petit modèle avec l'aide d'un grand.
Ça, ça se fait beaucoup.
Oui, ça se fait beaucoup. Ça s'appelle de la distillation.
On essaie de distiller les connaissances d'un modèle qui est plus grand
vers un modèle qui est plus petit.
Donc, on utilise les générations de ce modèle pour entraîner un modèle qui est plus petit.
Donc, on fait ça pour la partie pretraining, qui est la partie où on entraîne ces modèles sur beaucoup de données.
Mais aussi pour la partie post-training, il y a la partie où on construit des chatbots.
On leur montre comment répondre aux instructions et tout ça.
Et donc là, typiquement, quand tu dis générer des données pour les entraîner,
ça paraît un peu flou.
Ça ressemble à quoi, très concrètement, on leur dit,
écrire des trucs intéressants.
Enfin, comment ça, comment tu fais ?
Ouais, c'est pas évident.
C'est beaucoup de ce qu'on appelle prendre une générine,
essayer de trouver les bons prampes et les bonnes façons de poser les questions aux élèves.
Donc, il faut vraiment très bien cibler comment on génère les données scientétiques.
Déjà, il faut avoir un use-case, par exemple,
se dire, moi je générais des données de maths.
Donc déjà, moi je ferai un peu mon contexte.
Après, il faut trouver de bons prampes, de façon à comment poser les questions aux modèles.
Et en général, ce qu'on fait, c'est qu'on demande un modèle de générer quelque chose,
par exemple, à Manuel Scolaire sur de la Gébrelinière.
Ce qu'on fait, c'est qu'on lui donne un extrait d'une page web qui parle du même sujet comme référence.
Comme ça, le modèle lui pourra s'inspirer.
Et à chaque fois que je change ma référence, ta génération va changer.
Donc je peux générer beaucoup de données scientétiques qui sont assez diverses.
Alors que si je ne donne pas au modèle cette référence,
les générations sont vraiment extrêmement similaires.
Donc typiquement, tu as 15 résultats sur Google qui parlent d'Algebrelinière, par exemple.
Toi, tu aimerais générer 150 exemples de données, parce que 15 n'est pas assez.
Ce que tu fais, c'est que tu les donnes à chaque fois en entrée à des prombes
qui vont générer plein de versions différentes.
Du coup, par exemple, mon prendre, ça va être générer moi un Manuel Scolaire sur de la Gébrelinière
qui est lié à cette page.
Du coup, je vais mettre un extrait de la page dessus.
Après, il y a des techniques pour générer, pour avoir plus de diversité.
Par exemple, je peux lui dire que ce Manuel Scolaire soit pour des étudiants en lycée
ou des étudiants en primeur ou en collège.
Je veux que le style ressemble à certains écrivains.
On peut vraiment injecter plusieurs trucs pour avoir une certaine diversité.
Ce qui est cool, c'est qu'on peut vraiment contrôler à quoi ressemble le schoolment des génères.
Et typiquement, les différences de niveau, genre collégien, lycéen, université,
est-ce que derrière, tu entraînes le modèle dans cet ordre ?
Tu lui donnes du collège après tu le lisais, après tu lui manques.
Oui, c'est ça.
Oui. En fait, il y a des gens qui ont essayé de faire ça, ça ne marche pas très bien.
On penserait que ça marcherait, mais non.
Et du coup, non, on génère juste des données pour plusieurs niveaux et on mixe tôt et on entraîne les modèles sur ça.
Donc, je comprends bien les données synthétiques, c'est un peu un effet de levier.
C'est-à-dire qu'avec peu de données, on est capable d'en générer beaucoup
et aussi d'avoir un contrôle sur quelle gueule les ont, en termes de style, de manière de parler.
Oui, juste que par exemple, les références qu'on utilise, c'est des données de web.
On a vraiment très beaucoup de données.
On a beaucoup de données. Donc, on utilise ça comme référence.
Donc, l'idée, c'est que j'aurais quelques prombes, peut-être juste cinq, une pour le lycée et une pour le collège,
mais à chaque fois que je vais changer ma référence, j'ai des millions de pages que je peux utiliser comme des extraits.
Ça va à chaque fois changer la génération du modèle et je peux aussi choisir de changer le style.
Donc, on peut générer vraiment des dates-sets qui sont assez diverses.
Ok. Donc ça, c'est le cas simple, entraîner un petit avec un grand.
C'est assez intuitif, on se dit que le grand est le plus intelligent et il peut apprendre un petit.
Bon, maintenant, le cas un peu plus étrange, c'est qu'il a entendu qu'il y avait certains modèles qui pouvaient s'entraîner eux-mêmes pour le coup.
Il paraît que c'est les plus gros, du coup, qu'ils peuvent faire ça.
Et là, c'est plus dur à saisir.
Oui. Du coup, la raison pour laquelle ça peut marcher, c'est parce que le process pour générer les données, il est vraiment très élaboré.
Par exemple, ce qu'on peut faire, c'est ce qu'on appelle, c'est pas le terme en français, mais chain of thought.
C'est essayer de raisonner par plusieurs étapes.
Et du coup, on passe vraiment beaucoup de temps sur la partie génération de données.
Même si c'est le modèle qui génère ça, en fait, il y a quand même beaucoup d'apports humains pour être sûr que les générations, elles vont être correctes.
Par exemple, je peux utiliser un modèle pour générer du code et après, je vais l'entraîner sur ce code.
Mais avant de l'entraîner sur ce code, je vais essayer de vérifier le code si ça tourne ou pas.
Donc je vais quand même essayer de générer des données, mais je vais filtrer ces données.
Je vais vraiment utiliser des prombes qui sont diverses pour générer des choses qui sont de très bonne qualité.
Donc ce n'est pas ce que le modèle génère en première sortie, mais c'est des trucs que je filtre très bien.
Comme ça, je pourrais utiliser ces modèles pour entraîner.
Donc, schématiquement, ce n'est pas comme si le modèle sortait un truc et il re-rentrait.
C'est ça.
Effectivement, ça paraît débile.
Il sort un truc et il le rentre.
Et il re-rentre.
C'est ça. Il peut même y avoir des humains dans la boucle.
Mais le truc qu'il sort, ce n'est pas évident.
En fait, le prompt, il faut que ça soit un bon prompt.
On fait beaucoup d'expérimentations pour trouver quelle est la manière dont il faut poser la question pour que ça génère les bonnes choses.
Et cette partie-là, c'est clairement la moins intuitive.
Parce que tu peux te dire là, pour le coup, que toi, tu as juste conçu un prompt
et tu génères des données qui sont censées rendre ton modèle plus intelligent alors que c'est lui-même qui a généré ces données.
Mais du coup, je pense que pour détailler un petit peu,
ce qui se passe, c'est que, en fait, c'est pas parce que les données sont dans le modèle, entre guillemets,
que lui est en mesure d'identifier ce qui est plus qualitatif, de ce qui est moins qualitatif, du vrai, du faux, etc.
Donc là, si je comprends bien, ce que tu fais avec une chaîne de pensée ou une chaîne de prompt, comme on dit,
c'est que tu lui par exemple, tu lui demandes d'écrire un poème.
Après, tu te dis, ok, ce poème, réécris-le, mais en mieux, corrige ce genre de trucs.
Et tu peux faire comme ça plusieurs iterations, ce qui fait qu'à la fin, ton poème,
certes, c'est ton IA qui l'a créé, mais en fait, si tu la réentraînes dessus, elle, ça a amélioré entre temps.
Exactement. Parce que lui, il a généré des poèmes, mais ils étaient pas tous de bonne qualité au départ.
C'est grâce à ce process de traitement qu'on a réussi à avoir des données synthétiques qui sont de très bonne qualité,
même s'il vient de ce modèle.
C'est ouf. Et du coup, là, on a envie de te dire, ces gros modèles-là, pourquoi ils ne referment pas tous dans une...
Ils se referment dans un data center et ils apprennent tout seul, quoi. En fait, c'est ce qu'ils font déjà, non ?
Ouais, tu peux essayer d'avoir deux modèles qui sont au corrigeux même,
parce que je crois qu'il y a déjà des papiers pour faire ça.
Ce que je veux dire, c'est que les meilleurs modèles actuels, on pense qu'ils font ça.
Ouais.
Enfin, c'est même...
Je crois même que dans le papier de Gemina, ils disent qu'ils entraînent sur des données synthétiques.
Ça vient, sûrement, de leur modèle. Ou peut-être de GPT4, mais oui, ils font ça.
Ah oui, tu peux aussi utiliser un autre modèle.
La concurrence.
La concurrence, tu sais que ça marche bien pour te générer et entre les quatre.
Surtout si ils ont réussi à avoir un modèle avant-de-croix, tu vas utiliser leur modèle.
Ah ouais.
Et donc tout le monde utilise GPT4.
C'est celui qui est en première ligne.
Sur le papier, ça a l'air super séduisant et intéressant pour améliorer le modèle.
Mais il y a quand même des gens qui, justement, posent la question de ce qui pourrait se passer si, entre guillemets, on tire le fil loin.
Est-ce qu'on n'est pas en train d'ouvrir une boîte de pondards avec ces modèles qui s'entraînent tout seul, entre guillemets ?
Il y a notamment un papier qui est sorti sur Nature et qui semble montrer qu'à force de s'entraîner sur des données non humaines, justement,
le modèle devient complètement débile.
Est-ce que tu as vu ce papier ? Est-ce que tu peux nous expliquer un peu, justement, ce qu'ils ont fait ?
Et éventuellement, si tu es d'accord, etc.
D'abord, c'était quoi leur idée, en fait ?
Je pense que c'est un sujet intéressant à explorer.
En gros, ce qu'ils ont fait, c'est qu'ils ont pris un petit modèle.
Je crois que c'était 100 millions de paramètres, et ils ont pris un dataset comme Wikipedia, Wikitext.
Et au départ, ils ont entraîné le modèle que sur ce dataset.
Après, ils ont demandé au modèle de compléter des passages du dataset avec ces générations.
Du coup, ils ont eu un mix entre des données synthétiques générées par le modèle lui-même,
qui vont remplacer ces passages du Wikitext et aussi un mix entre Wikitext.
Après, ils ont réentraîné le modèle sur ce dataset qui est un mix entre des données synthétiques
qui ont été générées par le modèle et qui ont été données du web.
Et ils ont fait ça sur plusieurs iterations.
Et vers la fin, ils ont trouvé que, quand ils entraînent que sur des générations du modèle après plusieurs iterations,
en fait, il y a ce qu'ils appellent les fondrements de modèle, modèle collapse,
ils commencent à générer n'importe quoi le texte.
Les fondrements, ça fait peur.
Mais du coup, si j'ai bien compris, c'est comme si à chaque iteration,
ils remplacaient 10 articles Wikipédia par le même sujet, mais généré par le modèle.
Oui, exactement.
Qui sont censés l'avoir appris, donc ils sont censés ressortir quelque chose.
Et comme ça, ils font une boucle où, à la fin, il reste 0 données originales de Wikipédia
et 100% de données générées.
Oui, et du coup, là, ça ne marche plus.
Là, ça ne marche plus.
Mais du coup, c'est quand même intéressant parce qu'avec ce qu'on vient de dire,
ils ne seraient pas censés...
Ah là, je n'arrive pas à faire cette phrase.
Parce que normalement, on ne s'attend pas à ce qui devient super fort après toutes ces iterations-là.
Exactement. En plus, on vient de dire ça.
Il ne faut pas entraîner sur les sorties des modèles, surtout si c'est un très petit modèle.
Je crois que ce n'est pas étonnant que ça collapse.
Ok, toi, tu n'as pas trouvé ça contre-intuitif alors ?
Non, pas du tout.
Parce que sur tous ces petits modèles, si on entraîne vraiment que sur ces générations à 100%, ça n'a pas de sens.
Je pense que sans pratique, les gens savent déjà ce problème.
Il y a personne qui fait ça.
Je trouve que c'est plutôt un cas très extrême.
Ou tu entraines déjà le modèle que sur ces propres générations sans filtrer, sans faire beaucoup d'efforts sur les prendre.
La deuxième erreur, c'est de faire ça de façon iterative.
On ne fait pas ça vraiment.
Et ici, ça va être... Il y aura beaucoup d'efforts sur les prendre et sur le traitement des données.
Donc en pratique, je pense que ça ne va jamais arriver si on fait ça de façon intentionnée.
Donc de ton point de vue, il y a des problèmes de méthodologie dans l'étudie ?
Oui, exactement.
Déjà, le modèle est petit et le fait de faire ça de façon iterative,
le fait qu'il n'y a pas...
Interative, ça veut dire...
Oui, les propres générations n'en restent exactement et plusieurs fois. Ils boucle sur lui-même.
Et aussi le fait qu'il n'y a pas eu des efforts sur les prendre et les générations.
On a juste demandé au modèle de compléter des basses de Wikitex.
Et aussi, c'était le modèle de la même taille alors qu'en général, on fait ça d'un modèle qui est plus grand vers un modèle qui est plus petit.
Donc je pense que dans ce use-case, c'est normal que ça arrive.
Mais dans la pratique, ce n'est pas comme ça qu'on utilise dans les synthétiques.
Ok.
Donc, ce papier là, entre guillemets, qu'il a pas mal tourné.
Oui, parce que c'est intéressant quand même à explorer, surtout d'un point de vue théorique pour voir ce qui se passe.
Mais dans la pratique, ce n'est pas vraiment ce qu'on fait.
Ok. Donc, ça ne montre pas en tout cas que l'idée de donner synthétiques soit mauvaise,
même en fait, vous observez l'inverse, c'est que ça marche plutôt bien.
On n'a quand même pas fini de répondre à la question.
Parce que ça permet d'évacuer l'idée que juste utiliser les LLM quelque part dans la boucle de l'entraînement,
ce n'est pas en soi une mauvaise idée.
Maintenant, moi, ce qui me pose question quand même, c'est le fait que sur Internet même,
il y a de plus en plus de contenus génériques.
Et ces contenus-là, pour le coup, il n'y a pas le choix.
On n'a pas le choix. Ils sont là.
On ne peut pas juste les retirer du dataset entre guillemets.
Il y a de plus en plus d'articles, de presse, de journaux qui sont générés.
Des blogs de merde qui font du SEO.
Parfois, ils le notent.
Des blogs qui font du SEO.
Ou alors, tu parlais des TikToks.
Il y a un exemple assez frappant qui avait été montré par Monsieur Fy,
un YouTuber qui parlait d'un type de sujet dans la philo,
qui est en particulier sur le stoïcisme,
qui est un thème qui peut être un peu utilisé dans les sphères plus entreprenariat malades.
Développement personnel.
Qui est assez marrant.
Et en fait, c'est des milieux où beaucoup se sont appropriés les outils de génération diable
pour essayer de créer du contenu, faire des YouTube qui perds, etc.
Et donc, c'est assez fascinant de voir comment un sujet, le stoïcisme,
tu pourrais te dire, c'est quand même très spécifique.
Si tu tapes ça aujourd'hui sur YouTube,
tu vas voir qu'il y a genre 98% de contenu généré.
Cette state sort de mon chapeau, mais...
Et tu vois, c'est quand même fascinant.
C'est-à-dire que la recherche, en termes de résultats sur ce sujet en particulier,
tu vas trouver des humains, mais tu vas devoir bien scroller.
Et avant ça, tu vas avoir des montagnes et des montagnes,
des vidéos qui sont un peu des logorés, des GPT-ismes, comme on dit.
Donc, des phrases un peu rundum sur le stoïcisme et compagnie.
En termes de substances, je pense que c'est à pauvre assouais par rapport à ce qu'il y avait avant.
Donc, on a vraiment un cas où, là aujourd'hui, en 2024,
on regarde cette partie-là d'Internet versus en 2022,
je pense que la qualité, justement, du texte, la qualité de contenu,
c'est effondré.
Là, c'est assez objectif.
Il y a un autre exemple, c'est avec des certains auteurs de...
enfin, certains peintres, tu t'appelles leur nom.
Et comme ils sont utilisés dans des styles un peu de midjournets ou des choses comme ça,
tu tapes ça sur Google Images et tu vas voir que leurs propres tableaux sont introuvables.
C'est-à-dire que tu dois faire trois pages de Google Images,
parce qu'avant, c'est uniquement des générations midjournées, en fait, ou d'ali.
Surtout pour des peintres très connues mais qu'on fait peu de tableaux.
Et c'est logique, du coup.
Oui, c'est logique.
Mais c'est assez fascinant.
Et donc, pareil, 2022, très bonne donnée d'image pour s'entraîner dessus,
2024, horrible.
Je prends des cas super précis,
qui évidemment ne sont pas encore représentatives d'Internet,
mais ce que toi, déjà, qu'est-ce que tu en penses ?
Est-ce que tu as vu des différences actuellement
de qualité entre entraîner sur 2024 versus entraîner sur 2021
ou 2020 dans l'ère près de la JPD ?
Oui, je pense que ce sont des soucis qui sont très légitimes,
surtout en compte en part d'artistes et tout ça.
Pour nous, ce qui est en termes de texte et de données sur le web,
du coup, on s'est posé cette question.
Et du coup, dans un papier qu'on a fait,
on a essayé de chercher si on peut mesurer
s'il y avait vraiment plus de données synthétiques aujourd'hui par rapport à avant.
Donc, c'est vraiment très dur à faire ça,
mais on peut essayer d'utiliser des proxies, par exemple,
chercher des mots qui sont en général générés par Chats de JPD,
comme le mot « delve » je ne sais pas si vous avez vu.
Le mot présent, quoi ?
Delve.
Moi, j'ai vu passer ça.
Explique, c'est génial.
En gros, par rapport à moi, Chats de JPD,
ils utilisent le mot « delve » beaucoup.
Et si tu vois ça quelque part,
il y a une très fortune que c'est utilisé,
générée par Chats de JPD.
Donc, c'est un mot en anglais qui veut dire « rentrer dans un sujet » ?
Exactement, oui.
En fait, il y a eu quelque chose, je crois, c'est un labo.
Ils ont un peu mesuré combien d'abstracts sur archive
utilisent le mot « delve » aujourd'hui par rapport à Chats de JPD.
C'est une couple qui est très intéressante.
En fait, après Chats de JPD,
on est passé à 5% d'abstracts
qui utilisent le mot « delve » à 80%.
Tout le monde réécrit les abstracts.
Les abstracts, c'est les résumés des papillés sur archive.
Et il faut savoir, pour un chercheur,
tu me dis si je me trompe,
mais c'est chiant d'écrire un abstract, un résumé.
Tu peux faire ton article et tout,
tu fais à la fin.
C'est un truc que tu dois rendre à la fin.
Et en fait, ça s'ouvre tout le monde.
En vrai, c'est pas si étonnant, mais c'est très drôle.
Donc, la courbe sur le mot « delve » ?
Vraiment, après Chats de JPD, ça explose.
Génial.
Alors moi, j'entends une théorie sur ce mot,
sur l'origine.
Est-ce que tu la connais ?
J'ai vu la théorie.
Réconstitue, t'en souviens ?
Je sais pas si c'est vrai, mais apparemment,
les données qui sont générées pour entraîner Chats de JPD,
c'était des données des annotations par des humains.
Et je crois qu'ils ont fait ces annotations en Nigeria,
si je me rappelle.
Un pays d'Afrique, je sais plus.
Apparemment, ils ont dit que les gens,
ils ont plutôt un anglais qui est académique,
et du coup, ils utilisent beaucoup le mot « delve »
et du coup, les annotations avaient beaucoup ce mot.
Mais je sais pas si c'est vrai.
J'ai entendu la théorie, je l'ai trouvé extrêmement plausible.
Et je sais pas comment dire, c'est duisante,
parce que ça fait une explication toute faite.
Mais apparemment, il y a effectivement cette petite zone du monde
où une fille se met beaucoup ce mot,
ce qui a comme conséquence derrière d'envoyer un archive.
Je trouvais ça absolument incroyable.

Pour revenir sur l'étude,
on a essayé de chercher par exemple combien de pas d'utiliser ce mot,
mais aussi d'autres expressions,
comme l'expression « as a large language model ».
Vous comptons demander des trucs un peu chelou,
ils disent ça.
Certains lits.
Je crois que l'on avait ça aussi.
Et du coup, on a mesuré ça,
et on a justement remarqué que les pages après 2022,
il y avait plus d'occurrence de ces mots.
Du coup, peut-être, c'est un indicatif qui a plus de données synthétiques.
Et comme je disais, comme un crawl,
on a les données tous les mois.
Du coup, on peut juste entraîner plusieurs modèles sur les mois
et voir si on a de meilleurs modèles
ou de modèles qui sont en pire.
Ce qu'on a trouvé, c'était vraiment l'opposé des modèles après.
Les choses de JPD sont mieux.
Ok.
En fait, c'est une cour qui augmente.
Je pense qu'on va envoyer la cour après.
Mais c'est très intéressant,
on s'attendait à l'opposer aussi.
Mais non, ils sont mieux.
C'est dur de dire si c'est à cause des données synthétiques,
mais en moins, on sait que les données synthétiques,
ils n'ont pas généré des données qui sont en pire.
Tu as des intuitions de pourquoi ?
Peut-être.
Du coup, je travaille beaucoup avec les données de Web
et les données synthétiques.
Je pense que les générations, la qualité
de ce que gèneront les modèles
est mieux que ce qu'on a en moyenne sur le Web.
Il y a vraiment beaucoup de choses de très mauvaise qualité
sur le Web.
Et avec ces modèles,
la raison pour laquelle les gens l'utilisent,
c'est parce qu'ils génèrent des choses mieux que ce que eux,
ils peuvent générer.
Mais moi, je fais beaucoup de tweets.
La plupart, ils sont réécrits par chat GPD.
C'est mieux que ce qui existait avant.
C'est intéressant.
Tu le compares à une bonne vidéo YouTube
ou un bon papier ou un bon livre.
Effectivement, c'est...
Moi, je dirais que c'est une logorie.
Mais en fait, par avoir la moyenne
de données pour l'entraînement,
c'est pas si mal.
Oui, vraiment, il y a des choses qui sont très...
Du coup, je le propose une théorie.
A ce stade de la chronologie,
donc on est en 2024,
on est un moment où,
en termes de proportion,
j'imagine qu'il y a encore une bonne...
la plupart d'Internet qui est humain.
Et donc, on a un moment où,
effectivement, ces données qui ne sont pas de mauvaise qualité,
ce qu'elles permettent de faire,
c'est de gonfler la quantité.
Et on a un moment où
on est loin d'avoir optimisé la quantité
par rapport à la qualité.
Donc juste plus de quantité, même moyenne, c'est bien.
Oui.
Enfin, ça c'était une explication possible.
Du fait que, en 2024
versus 2022, on a juste 2 ans
de données supplémentaires.
Peut-être que dedans,
il y a des GPT-ism,
mais que
leur qualité est encore au-dessus du lot,
de la moyenne, comme tu dis.
Et en plus, ça crée du volume
de données supplémentaires. Donc, on voit
un résultat positif sur les modèles.
Est-ce qu'on ne peut pas s'imaginer ?
Non, on tire un petit peu la courbe,
sur, par exemple, dans 5 ans.
Imaginons qu'en termes
de volume de données,
de quantité, on a réussi
à faire en sorte que
les terra et les terra, c'est plus
10% de trucs super-calis
et beaucoup de trucs nuls,
mais a optimisé pour que quasiment tout
soit super bien et qualitative.
Et on se retrouve
avec un planète qui est
très largement rempli
de données synthétiques
qui ne sont pas forcément super-calitative, etc.
Qui commence à être moins bien que la moyenne
du jeu de données. Tu vas-tu le dire ?
Par exemple, comme pour le stoïcisme,
on se retrouve
avec les prochains mois
comme une crawl sur le stoïcisme,
qui sont juste pourris.
Deux questions. Déjà,
est-ce que tu vas être en mesure
de
séparer le bon grain de livret ?
Est-ce que de voir ce qui est nul
et de générer, est-ce qu'il sort du lot ?
Est-ce qu'on sait faire ça, c'est techniquement possible ?
On sait que les profs savent pas
voir si une copie est générée, par exemple.
Donc, toi, dans ton
système de filtres, tu seras capable
en 2028 de têche tout le stoïcisme
horrible ?
Ou pas ? Près bien question.
Et deuxième question, qu'est-ce que ça veut dire
sur le futur des data set ?
Ouais, je pense que c'est une très bonne question.
C'est dur de
prédire, mais je pense en général
qu'est-ce qu'on va avoir au futur
des techniques de ce qu'on appelle
le watermarking.
Parce qu'en fait, les données qui sont générées
par ChargeBT aujourd'hui, qui sont sur le web,
ça aide pour entrainer des modèles qui sont petits.
Par exemple, j'imagine qu'au Pneia,
il veut entrainer un modèle meilleur que ChargeBT,
peut-être que ce n'est pas bien d'entraîner
que sur ces générations qui sont un peu random.
Ce n'est pas des générations que ils ont fait eux-mêmes.
Du coup, je pense que dans le futur,
je crois qu'ils ont déjà commencé
à développer des techniques de watermarking.
C'est en gros une sorte de signature numérique
que tu ajoutes aux générations des modèles.
Les humains, ils ne pourront pas
voir cette signature, mais il y aura des algorithmes
qui pourront détecter si ce modèle a été
généré par ChargeBT ou pas.
Pour l'instant, je pense que si quelqu'un
génère des données par ces modèles, il change
un peu la génération, ça ne marche pas très bien.
Mais peut-être dans le futur, on pourra développer
ce genre d'algorithmes, mais je pense qu'il y a vraiment
on a besoin de ça. Par exemple, le problème
de moteurs de recherche dont tu parlais,
je pense que si on a ça, ça peut résoudre ça en partie
et on pourra détecter qu'est-ce qui est généré
et qu'est-ce qui n'est pas. Et c'est de mettre en avant
les contenus qui sont originaux.
Ok, parce que tu parlais de techniques
un peu basiques où on cherche un mot
clé, genre Delve, qui revient tout le temps.
Là, ça veut dire que c'est le plus subtil.
Oui exactement, ça va être des algorithmes,
ça va être plutôt les boîtes qui développent
les modèles, qui seront renseigues, quoi ces algorithmes.
Et pourront les utiliser après.
Par exemple, ils vont jouer
sur la fréquence d'apparition de certains mots
des choses comme ça, qui comme tu dis
sont invisibles de notre point de vue.
Mais en fait, sur des gros volumes, tu peux dire
le « e » dans la langue anglaise,
normalement, il vient 80% du temps
et là, en fait, on est sur un 76,
c'est super bizarre.
Ouais, c'est un peu des trucs comme ça.
Ça ne va pas être directement visible sur les mots,
mais sur ce qu'on appelle les tokens,
c'est un peu l'équivalent des mots pour les élèves.
Ils vont essayer un peu de jouer sur la distribution.
Donc je pense que ça va être quand même des algorithmes
qui sont assez avancés. Et ceux,
les personnes qui ont accès à ces algorithmes pour
les utiliser pour savoir s'ils ont vraiment du contenu généré
ou pas. Et comme ça,
ça va être quand même des données
qui n'ont pas la différence, mais pour eux,
ils sauront savoir quelles données sont
synthétiques et quelles données ne sont pas.
Mais ça veut dire que les différentes sociétés
qui développent des LLM, il faut qu'ils se partagent
les watermarks, sinon ça ne marche pas.
Du coup, ça c'est une bonne question.
Ouais, déjà, la raison pour
développer pour la boîte, ça va être pour elle-même
pour qu'elle entraîne des modèles. Après,
dans un monde idéal, il faut se partagir
les watermarks, mais je ne sais pas si ça va le cas.
Est-ce que tu penses que c'est possible que du coup,
si on tire le fil,
il y a un moment où en fait,
on arrête le data set, parce que
justement en fait, 2028,
c'est...
ça devient... est-ce que c'est
une plausibilité qu'on s'arrête
à 2025 ? Par exemple,
on se dit, non mais là,
on a des données qui ne sont pas trop polluées
avant, on garde, après on
prend plus. Moi, je pense plutôt
de la même manière, dans
les données qui sont du Web généré par des humains,
on va utiliser les mêmes filtres
pour les données synthétiques. Parce que
en fait, s'il y a des données synthétiques qui sont de mauvaise qualité,
ils ne vont pas passer nos filtres. Et s'ils passent nos filtres,
peut-être qu'ils sont de bonne qualité, il faut les garder.
Donc, c'est peut-être pas un problème.
Pour moi, je ne considère pas
que le Web est vraiment pollué par les données
synthétiques, parfois ça peut être même un enrichissement.
Donc il faut juste savoir
bien filtrer, si ça passe, ces filtres,
c'est peut-être de la bonne donnée qu'il faut garder.
C'est vrai que c'est un truc intéressant que t'as dit, c'est que
à partir du moment où t'as un modèle
qui est suffisamment
intelligent, entre guillemets
pour donner des notes
comme tu nous expliquais sur est-ce qu'un contenu
est éducatif ou pas.
Si ça se trouve, il va pouvoir aider
entre guillemets, même dans un futur
un peu dystopique où Internet est
encore plus pollué.
Exactement. En fait, aujourd'hui, on a déjà
je suis à peu près sûr qu'aujourd'hui, on donne
un vidéo stoïcisme pourri
et un vrai bon article
d'un téléscope Wikipedia,
des modèles actuels sauraient faire la différence.
Oui exactement, c'est ça.
Du coup, on peut utiliser des NM qui sont
performants pour anoter ces données,
comme ça on peut les utiliser. Du coup,
si les données elles passent et qu'on considère
qu'ils sont de bonne qualité, même s'ils sont synthétiques,
c'est de la bonne donnée, il faut la garder.
En fait, ça veut dire que les NM sont la chimère
et la solution.
Ça me sert à ça.
J'aimerais finir avec une théorie que je trouve
il est honte, qu'une théorie du complot
je sais pas si tu la connais, qui s'appelle
la dead internet theory.
Tu as déjà entendu ?
En gros, c'est incroyable,
c'est donc dead internet theory,
most of the internet is fake.
C'est des gens qui pensent qu'actuellement
internet est principalement composé
de contenus déjà généré et de robots
pour contrôler la population
et minimiser l'activité humaine en gros.
Donc sur tous les réseaux, actuellement,
tous les gens que tu vois en fait,
c'est pas des régions,
mais en réalité, c'est une stratégie
à la matrix
pour te faire croire que l'humanité
existe.
Je sais pas si ça est génial.
Je connais pas bien ce truc, mais je crois que c'est
depuis 2017 et du coup, en fait,
l'apparition des LLM a donné du grain
à un monde à cette théorie du complot
qui est vraiment... voilà, c'est généré.
Mais surtout,
pour le coup, c'est une théorie du complot
qui n'est pas un curseur
oui ou non, c'est à dire que
oui, il y a une partie des bottes partout,
tu as du contenu généré partout
et donc je trouvais ça
assez fascinant de savoir qu'il servait un nom
juste la dead internet théorie.
Moi, j'ai une dernière chose
sur le... du coup, a priori, même si
le web est
plein de contenus généré,
vous serez capable de filtrer,
d'avoir des bons filtres
pour savoir si c'est
de la donnée de la bonne qualité ou non.
Mais j'ai envie de dire, nous les humains,
quand on va se scroller sur le web, on est peut-être
moins fort que c'est l'LMM.
Est-ce que tu penses que le
web va pourrir
un peu comme certains le disent, comme ça ?
Est-ce que... et à quelle échelle de temps
ou en fait
ça va se réguler ?
Moi, j'ai pas rétondu ton avis, j'ai entendu
un... t'incombe, il s'appelle déjà.
Olga qui avait acquis la
PS4, là, qui avait...
J'ai oublié son nom. Je vois qui t'ai parlé,
mais j'ai oublié son nom. Attends, fais lire le hotchat.
Il est très très enléa, maintenant, et qui
fait un concurrent, un PyTorch, qui s'appelle...
Euh...
Comment il s'appelle ?
Ils vont me le dire dans le chat, mais c'est...
George Hutz. George Hutz.
Tu vois ? Et bien, justement,
je l'ai entendue
parler de cette question-là.
Et il disait qu'en fait, c'est probable
que l'interface qu'on est
avec le web entre autres
mais en général, change.
Et typiquement, on ne puisse plus avoir, par exemple,
un simple navigateur, du fait
que... un peu des raisons que j'évoquais
sur le fait que Google peut être un peu pourri par ça.
Mais qu'en fait,
on pourrait finir avec chacun notre IA
justement, qui fait
cette intermédiaire, ce fit trop là.
On l'a dit, ils ont la capacité.
Et tu aurais besoin de faire un truc sur Internet,
ou tu aurais une question. En fait,
cette intermédiaire, c'est-il un intermédiaire
qui l'offrait, justement,
pour t'éviter... C'est ce qu'on voit un peu avec Perplexity.
C'est déjà un début de ça, en réalité.
C'est que... c'est un site
où on pose une question, mais plutôt que donner des résultats
comme Google, où tu dois faire un clic
ensuite, il te ramène l'info
directement dans la réponse, à partir du web.
Il sert un peu comme ça
des murs d'interface. En fait, on aura
des filtres d'ispo. C'est une question.
Est-ce que tu crois que, éventuellement,
on évolue vers ça, une sorte
d'intermédiairisation de l'info, quoi ?
Oui, je pense que ça peut arriver.
Déjà, maintenant, on a
Gemini sur Google. Je sais pas si vous avez vu, mais vous pouvez poser
la question à Gemini au lieu de chercher sur Google.
Donc, oui, c'est un pareil plausible.
Mais en général, sur la problématique
de... il y aura du contenu
généré par Lia, qui est peut-être pas de bonne qualité,
on pourra pas distinguer ça.
Je pense que c'est un problème qui restera
quand même pour les moteurs de recherche, et dans le futur,
je suis sûre qu'il y aura des solutions
pour essayer de montrer les pages les plus pertinentes.
C'est pareil pour Google, quand ils ont commencé, c'était
une recherche où on se basant sur les mots-clés.
Ça ne marchait pas, on a développé des trucs en page-run
pour trouver vraiment, qui sont les pages, qui sont les plus légitimes.
Donc, on aura quelque chose qui est pareil pour aujourd'hui.
Si il y a une page, je ne vous sais pas correcte,
il n'y aura pas beaucoup de trafic, et ça ne va pas forcément
apparaître très haut.
C'est assez régulier, quoi.
C'est juste qu'ils ont peut-être un peu de retard actuellement,
mais que... on va trouver le fact-check.
Et par exemple, si la techno existe,
c'est intéressant. YouTube, il faut qu'ils sortent leurs recherches,
quand tu t'abstoïcisses, puis il faut l'arriver à...
Je crois que entre la vidéo de Monsieur Fidon,
que tu as mentionné, et maintenant,
après ça dépend de ton cache, etc.
Mais il y a l'impression qu'il y a des changements,
mais il y en a encore énormément.
Mais en 2 ou 3ème position,
tu as quand même des vrais vidéos intéressantes,
mais c'est peut-être aussi au service de s'adapter.
Mais ça pose une vraie question sur nos métiers,
en fait, sur la création de contenu,
pour faire du contenu qui est proposé par les IA.
Potentiellement.
Oui, c'est ça.
Oui, mais j'avais vu un schéma hilarant là-dessus,
où tu voyais un...
quelqu'un qui disait à Sonia,
écrit un mail pour dire à Machin,
qui dit n'importe quoi,
c'est à l'IA qui génère un mail super poli,
de 15 lignes en mode.
Je ne suis pas tout à fait d'accord en Machin.
Le mail part, il arrive,
et il y a l'IA du destinataire,
qui résume le truc,
et tu as dit que tu dis n'importe quoi.
Mais c'est toujours la politesse,
c'est juste...
C'est juste pour le web,
ça passe juste sur HTTP,
mais en fait derrière, c'est...
Je crois ça très marrant.
Merci, normalement l'ONAS était super intéressant.
Je me permets d'ajouter,
parce qu'il y a limite un culte qui s'est créé dans le chat pour toi, l'ONAS.
Il est trop fort, je pense qu'il y a pas mal de tes collègues,
il y a notamment Arthur qu'on avait reçu.
Il y a Julien Choumont aussi,
le directeur qui est là,
à chaque fois qu'on fait un live avec quelqu'un de Huggy Face,
il est dans le chat.
Et non, ils ont beaucoup salué
ton expertise et...
Des gros bisous à l'équipe de Huggy Face.
Il y a aussi les autres dans le chat.
Il n'y a pas que Huggy Face dans le chat.
On est 25, c'est cool.
Et vous pouvez aller
évidemment
follow ton compte Huggy Face
pour voir les prochains dataset que tu nous mijotes
et les prochains modèles.
Bonne chance pour ça.
Et puis on se retrouve peut-être une prochaine fois, merci Mathieu à toi.
Merci pour cette superbe
émission, c'est un magnifique lineup.
C'était trop bien, franchement, trop intéressant.
Trop cool, merci aux invités, c'est vous qui faites le compte.
Et des bisous au chat, et on se retrouve
non pas la semaine prochaine,
non pas dans deux semaines, mais le 8 janvier.
A 19h sur Twitch.
Des bisous !

Episode suivant:

S5E8 - Votre téléphone vous ment (et c'est fascinant)

Les infos glanées

Je suis une fonctionnalité encore en dévelopement

Signaler une erreur

Underscore_

IA, Hacking, Robotique — Des conversations de terrain avec ceux qui construisent. 🥨

Partenariats: underscore@micorp.fr

---

Hébergé par Acast. Visitez acast.com/privacy pour plus d'informations.

Card title

Lien du podcast

[{'term': 'IA', 'label': None, 'scheme': 'http://www.itunes.com/'}, {'term': 'Investissement', 'label': None, 'scheme': 'http://www.itunes.com/'}, {'term': 'Nouvelles Technologies', 'label': None, 'scheme': 'http://www.itunes.com/'}, {'term': 'Tech', 'label': None, 'scheme': 'http://www.itunes.com/'}, {'term': 'Actu tech', 'label': None, 'scheme': 'http://www.itunes.com/'}, {'term': 'Cybersécurité', 'label': None, 'scheme': 'http://www.itunes.com/'}, {'term': 'Développement', 'label': None, 'scheme': 'http://www.itunes.com/'}, {'term': 'Dev', 'label': None, 'scheme': 'http://www.itunes.com/'}, {'term': 'Entreprenariat tech', 'label': None, 'scheme': 'http://www.itunes.com/'}, {'term': 'IT', 'label': None, 'scheme': 'http://www.itunes.com/'}, {'term': 'Robotique', 'label': None, 'scheme': 'http://www.itunes.com/'}, {'term': 'Technology', 'label': None, 'scheme': 'http://www.itunes.com/'}]

Go somewhere