Pourquoi Banque Populaire est la première banque des entreprises ?
Je me posais des questions sur le partage de la valeur pour mes salariés.
Elodie, ma conseillère Banque Populaire, m'a proposé une solution d'épargne salariale sur mesure,
rapide à mettre en place et que je peux piloter en ligne.
C'était simple et surtout ça a fait des heureux.
Accompagner nos clients sur tous les territoires avec des solutions adaptées à leurs besoins,
c'est ça, être la première banque des entreprises, Banque Populaire, la réussite est en voulue.
Étude Quantar PMEP, mid-2023, Quatorze Banques Populaires, Première Banque des PM.
C'est ma petite chronique, traditionnelle, accoutumée.
C'est pas longtemps que je voulais en parler.
Oui, j'ai très hâte.
Et n'est pas trop hâte parce que c'est pas si évident comme sujet.
Ah mais c'est vu que je suis pas jossé.
Je suis préparé justement.
Donc je serais curieux d'avoir aussi à la fois vos avis et celui du chat parce que ça va m'intéresser.
Je vous propose de commencer avec un tweet.
Un tweet, si tu le arrives à le choper, c'est le tout premier.
Ça fait quelques temps que sur Twitter, des gens commencent à se plaindre d'un phénomène assez étrange.
Il semblerait que chat GPT, en particulier GPT4, soit en train de devenir débile.
Même plus précisément que ça, soit en train de devenir paresseux.
Alors ne me faites pas dire ce que j'ai pas dit.
Si vous l'utilisez une fois de temps en temps, tous les deux mois, vous allez vous détecter à priori aucun changement.
C'est à dire que ça reste un très bon insistant.
Ne crachons pas dans la soupe.
Il y a deux ans, on aurait complètement halluciné de voir ce genre de trucs.
Donc voilà, ça reste un très bon chat.
Mais des gens qui l'utilisent très souvent et moi personnellement, je vais vous le dire, j'ai fait cette observation.
On a l'impression que le modèle est moins bon qu'il y a six mois ou il y a un an.
Alors ça pose pas mal de questions.
Est-ce que déjà c'est vraiment le cas ?
Est-ce qu'on a des observations objective ?
On va dire qu'il pourrait nous laisser penser que oui.
Ou est-ce que c'est simplement des questions psychologiques ?
On a l'impression qu'il est moins bon mais en fait, c'est plus compliqué que ça.
Si c'est le cas, qu'est-ce qui pourrait justifier ça ?
C'est à dire qu'il y a de bonnes raisons de penser...
Est-ce que c'est conspit en gros ?
Ou est-ce qu'il y a des bonnes raisons de penser qu'un modèle puisse être moins bon avec le temps ?
Est-ce que c'est une take un peu éclatée ?
Exactement.
Ou un biais de confirmation.
Sur le lien, il faut beaucoup se méfier parce qu'il y a beaucoup de choses qui sont dites.
Et on va voir que c'est très compliqué.
La réponse est très compliquée.
Il faut de mêler le...
Et au même temps, vous allez être étonné parce que...
En fait, il y a potentiellement des vraiment très bonnes raisons qui expliqueraient que ça soit vraiment plus nul.
Enfin que les versions récentes soient moins bonnes que ça le dit à six mois.
Non, c'est là.
Mais n'allons pas trop vite.
Regardons déjà les premiers exemples qu'il a partagé.
Alors ça va être vraiment très petit.
Si tu descends un tout un petit peu sur les trucs plus bas.
Voilà, lui, ce qui est précis, c'est que c'est pas tellement une question de devenir stupide.
C'est-à-dire de ne plus arriver à résoudre des tâches.
Mais c'est de manière générale une question de comportement.
C'est-à-dire que là où il y a peut-être six mois, un an,
on pouvait lui demander de rédiger un script complet.
Je prends un exemple avec le développement parce que c'est assez parlant.
Tu lui demandes un script piton qui te fait une tâche extrêmement complexe.
Moi, je me souviens, à l'époque, j'étais en train d'apprendre Swift.
Et je lui demandais de faire des tâches vraiment très complexes sur le GPU du Mac.
Et il me pondait des scripts en Swift et il me générait des shaders.
Et tout ça produisait à la fin du code long complet et vraiment, il manquait rien.
Et il semblerait qu'on soit passé de ça à actuellement,
ou si on regarde dans quelques exemples, on voit qu'il est constamment en train de nous demander de faire le travail.
J'ai remarqué ça un peu.
J'ai remarqué ça.
Un peu la flemme.
Tu lui demandes de faire un code avant et de le faire.
Maintenant, il t'explique comment tu peux y arriver,
et de mes petits extraits, mais ça a toi d'assembler le truc.
Exactement.
Il passe son temps à faire des...
Je t'ai fait un brouillon rapide, mais évidemment, l'implémentation demanderait plus de travail.
Et on a l'impression collectivement qu'il faisait moins ça avant,
où il va te générer ton code piton et il va te dire,
ici, il faudrait implémenter tel truc.
C'est quoi, tu es genre, tu avais un stagiaire,
ou autre chose comme ça, tu lui demandes,
« Hey, tu peux faire ça en piton ? »
Et là, tu te l'as dit quoi ?
Il dit, « Alors, là, cette partie, il faudrait implémenter une connexion à la base de données.
Tu peux me faire un gâteau, t'chao.
Voici les ingrédients.
Je t'ai demandé le truc.
Un peu comme si tu étais obligé de faire une conversation.
Quand tu veux faire un truc, tu fais, « OK, fais ça.
OK, mais si je veux vraiment le faire,
tu as 5, 6 messages, alors qu'il y a quelques mois,
tu mettais ta requête.
C'était pas une conversation, c'était un message,
une réponse, et c'était bon, quoi.
Exactement.
Et il y a des gens qui ont fait des tests entre GPT4, par exemple,
et d'autres modèles, typiquement des modèles open source.
Moi, j'en ai vu notamment avec Mixtral,
donc les tout derniers modèles open source qui rivalisent de qualité avec GPT3.5, etc.
Donc, il est censé y avoir quand même un gap d'intelligence,
mais quand tu regardais du point de vue de la paresse,
effectivement, la distinction était frappante.
D'un côté, tu avais Mixtral qui te donnait, par exemple,
tu lui demandais de coder un bot Discord.
Donc voilà, on sait que c'est une tâche qui est relativement complexe,
mais quand même suffisamment abordable pour qu'un LLM soit en mesure de le faire.
Bon, Mixtral, d'un côté, tu codes ton bot Discord en entier,
te donnes des pistes pour résoudre ton problème,
des perspectives de modifications hyper précises,
des noms de librairie spécifiques en Python, des choses comme ça.
Et à côté, tu vois GPT4 qui te fait un boot script tout nul
avec du blah blah et des généralités en mode,
oui, il est complexe de générer des assistants avec du code.
Il faudrait apprendre la programmation en Python pour ça.
Je ne t'ai pas demandé de me faire une lecture, en fait.
Je t'ai demandé de générer du Python code.
Et effectivement, comme tu te dis, Mathieu,
c'est pas un problème qu'on ne peut pas résoudre,
parce qu'il suffit de le repromper, de lui demander,
non, mais j'aimerais bien le code en entier,
non, mais implementer tel ou tel parti toi-même
et tu finis par y arriver.
Comme tu le disais justement,
c'est comme si il avait un désir de raccourcir ses réponses
pour être dans un mode plus conversational
et à la fin des fins, tu finis par obtenir ce que tu veux.
Si tu en redescend un peu dans le thread,
il y avait quelques takes intéressantes.
Moi, du coup, j'ai une hypothèse qui me vient, peut-être après.
La première hypothèse qui a été émise,
c'est plutôt un changement de comportement
qu'un changement de compétence.
Et qu'en fait, on attribue cette perte de performance
à un fait qui ne devient plus débile.
En fait, ce n'est pas qu'il ne devient plus débile,
c'est juste qu'il a changé en gros.
Et notamment, ça pourrait être justifié
par l'apparition des nouveaux GPTIS.
Donc, ça fait ces assistants qui ne sont pas du tout des fine-tunes,
mais qui sont des versions un peu augmentées de GPT4,
où les utilisateurs comme vous et moi peuvent lui rajouter
des instructions spécifiques dans le système
ou des fichiers qu'il aura à disposition,
comme un PDF ou une feuille Excel avec votre base de données
et qui pourra vous aider à répondre à vos questions.
Peut-être que les versions actuelles de GPT4
ont été plutôt guidées pour suivre mieux les prompts de système.
Donc, on pourrait s'imaginer qu'un LLM, il a plusieurs types de compétences.
Il pourrait avoir une compétence de, je ne sais pas, de créativité, par exemple,
une compétence de générer du code valide.
Il pourrait avoir une compétence de suivre des instructions à la lettre.
Et ce n'est pas forcément intuitif,
mais ce n'est pas nécessairement les mêmes compétences à arrêter.
C'est-à-dire que tu peux être pas super malin,
c'est-à-dire ne pas avoir une capacité de raisonnement et de réflexion développée,
mais avoir une capacité de suivre à la lettre des instructions.
Vous voyez ce que je veux dire ?
Oui, et ça me fait penser à...
Il y a des parents qui jouent à ce jeu où tu demandes à un enfant de te dire
« vas-y, dis-moi comment je mange un yawart »
et tu dois me dérire toutes les étapes.
Et en fait, tu n'écris jamais toutes les étapes.
Un peu comme s'il était devenu trop précis
et que l'humain est en fait par nature imprécié
et que du coup, il y a un décalage qui s'est créé entre gp't.
L'intelligence intuitive versus qui suivrait à la lettre.
Par exemple, si tu oublies de dire « ouvre le frigo »
ça s'ébête, mais parce que inconsciemment on le fait.
Et ça me fait penser à ça.
Je pense que c'est une bonne analogie pour décrire
une piste d'explication
qui serait qu'un modèle qui est super efficace
à suivre des instructions précises,
c'est objectivement très utile.
C'est-à-dire que tu prends certains GPT,
par exemple ceux qui peuvent se connecter à internet
ou exécuter du piton dans une sandbox,
cela effectivement, OpenAI avait des bonnes raisons
de pousser leur capacité à suivre des instructions à la lettre.
Mais si ça se trouve, on est un peu perdu au change
dans leur autonomie et leur capacité à se débrouiller
et à faire des très longues générations valides
avec un petit prompt.
Donc on peut une autre analogie, c'est-à-dire,
à suivre très efficacement des très longs prompts,
c'est pas impossible qu'on y ait perdu
avec des prompts plus courts
et qui t'aurait demandé un peu plus d'intuition.
Donc ça c'est la première piste.
Ce qui n'est pas une mauvaise nouvelle
parce que du coup peut-être qu'on peut compenser légèrement
en essayant d'être un peu plus précis dans ce qu'on lui dit.
Si jamais c'est vrai,
il y a une piste de solution,
c'est effectivement d'avoir de secrets des prompts systèmes
qui vont d'idées la manière dont notre assistant se comporte.
Donc effectivement, je vois pas mal se partager sur Twitter,
si vous en avez d'ailleurs, n'hésitez pas à nous les partager aussi,
mais des prompts systèmes de gens qui disent
« OK, la version actuelle de la manière dont tu t'exprimes
ne me plaît pas et donc moi-même je vais devoir y créer à la main,
tu devais t'exprimer de manière détaillée,
cut the crap, à la de me raconter de la merde, du code en entier.
Et donc c'est effectivement un moyen de contourner le souci.
Surtout que les gens se sont rendus compte que
suivant l'intermédiaire qu'ils utilisaient avec les serveurs d'OpenAI,
ça ne se comportait pas forcément de la même chose.
Il y a des gens qui ont essayé sur la version ordite de ChatGPT
versus la version mobile et ils n'ont pas du tout obtenu les mêmes résultats.
Si vous ne le saviez pas, en fait, la version mobile de ChatGPT
a un prompt système différent.
En gros, ce qui est en haut du chat qu'on ne voit pas
est modifié suivant le device qu'on utilise.
Je savais pas, j'étais passé à côté de ça.
En gros, sur l'appli ChatGPT, il semblerait que OpenAI
est demandé volontairement à GPT4 de faire des réponses plus courtes.
J'imagine que la réflexion, c'est que les gens sont sur mobile
et donc ils veulent de l'info plus dense.
Oui, une info peut-être rapide.
Oui, je sais peut-être, mais tu n'as pas envie de se courler pendant 10 ans
sur ton téléphone.
C'est clair. Je pense qu'il y a une autre explication et valide.
C'est une histoire de coup, notamment sur les versions mobiles de OpenAI.
Je ne sais pas si vous avez vu, mais il y a des modèles de discussion.
En fait, ils ont intégré Whisper pour comprendre les instructions vocales.
Et leur nouveau modèle de génération texte, de texte au speech,
c'est très probable que tout ça leur coûte assez cher, mais de rien.
Et que du coup, réduire la haute pout, réduire la taille des messages
générés par ChatGPT, ça leur fait économiser de la génération vocale.
Je veux dire qu'il y a un financier, un jour, qui s'est pointé dans les bureaux
et qui a fait, bon, je sais que vous vous amusez bien, mais...
Je vais pas si les chiffres, pas de quelque chose.
Il y a un moment où il faut quand même pas déconner.
Ça, ce sont des explications qui permettraient d'expliquer
pourquoi on a le ressenti que la qualité baisse,
mais qu'en fait, elle ne baisserait pas vraiment.
Mais en fait, il est possible que même au niveau de la qualité,
c'est-à-dire que même au niveau du modèle,
c'est-à-dire le fichier qui tourne sur le serveur d'OpenAI,
celui là-même qui, on le sait, est modifié régulièrement
à des versions mises à jour tous les mois, etc.
Il est possible qu'il y ait des drops en qualité.
Pour ça, je vais vous parler d'un autre modèle qui existe,
qui est très connu, qui est celui d'entropique.
Donc Claude, que vous connaissez peut-être.
Qui est actuellement, on va dire,
ce qui se rapproche le plus d'une concurrence à peu près potable de GPT4.
Et ben, si tu veux...
Alors, j'aimerais bien retrouver le leaderboard.
Le problème, c'est que je t'ai pas mis le lien.
Merde, comment je vais le retrouver ?
En fait, il faudrait chercher le leaderboard, je crois, de Huggingface,
mais pas celui qui est basé sur des benchmarks,
mais celui qui est basé sur des votes humains.
En gros, il y a un système, je vous en avais parlé d'ailleurs,
un système via L.O.
qui permet...
Donc les benchmarks, c'est assez limité comme manière de noter les LLM.
Et donc, un autre type de leaderboard,
de classement qui a été mis en place,
c'est un système de LLMOS,
où des utilisateurs votent quel est notre truc qui préfère.
Et ben, justement, je vais vous montrer un truc, si jamais...
Peut-être dans le chat, si vous avez la bonne requête Google,
ça nous devraient se croire que les liens ne sont pas acceptés.
Les liens ne sont pas acceptés, mais si vous nous aidez à retrouver celui...
Ou alors, le lien avec des espaces.
Ça m'aiderait énormément.
Et alors, moi, du coup, j'ai une hypothèse qui me vient,
quand tu me dis, ok...
C'est ça ?
Oh, le beau gosse.
Bien joué.
Du coup, j'ai un truc à vous montrer,
à propos de ce LLM Cloud.
Si vous regardez ce leaderboard,
donc, ils montrent les plus gros modèles,
donc les propriétaires sont tout en haut, évidemment,
parce que, pour l'instant, ils ont quand même un avantage sur les modèles open source,
mais on peut voir tout en bas qu'il y a
i34b, tulu, il y a quand même...
Enfin, ça commence à se défendre, un mix tral qui est un peu plus haut.
Mais si vous regardez les tout, tout meilleurs,
est-ce que vous observez quelque chose d'un peu étrange ?
Il y a plusieurs versions de GPT4.
Alors oui.
Pourquoi ?
Non, mais c'est pas grave.
Pourquoi, en fait, elles correspondent
à différentes versions, à un temps donné.
C'est-à-dire que GPT4-03-14,
c'est la version qui date de mars 2023.
06, c'est la version qui date de juin 2023.
Et donc, on peut voir, déjà, la première chose, c'est que...
elles ne sont pas ordonnées par ordres chronoliques.
Tout à fait.
Et après, sur les seuls de Claude ?
Ah oui, pas... Ok, c'est vrai, maintenant ça me sort dessus.
Claude 2 est en dessous de Claude 1.
Alors Claude 2 est en dessous de Claude 1.
Et Claude 2.1 est en dessous des deux autres.
Alors, peut-être une autre hypothèse, est-ce que ça va
avec la censure des modèles et des choses comme ça ?
Exactement. Alors, je vais venir dessus parce que...
Il a dit le mot !
Il a dit le mot.
Il a dit le mot.
On va venir, mais c'est quand même assez dingue.
Donc pour expliquer, ça veut dire que les gens ont en moyenne
trouvé des modèles propriétaires récents,
comme étant moins qualitatifs que des anciens.
Je sais pas si vous vous rendez compte de ce que ça veut dire,
quand ça recrute à des équipes qui ont des millions de dollars
de financement, des centaines de personnes qui bossent sur des modèles,
ils passent des mois et des mois à créer des nouvelles versions
qui sont moins bien notées que des trucs sortis il y a un an et demi.
Et c'est sur tous les USK, il se passe seulement le code,
c'est de manière générale ?
Une appréciation humaine.
C'est humain là ?
Exactement. Là, c'est une appréciation humaine.
C'est un elo.
Alors, il faut mettre un petit bémol, c'est que les humains
ne sont pas forcément bons à détecter des réponses de qualité.
C'est-à-dire que tu peux avoir une réponse qui,
visuellement, te plaît dans le style, etc.
Mais en fait, dans les données, de manière objective,
ce serait moins bien.
Mais quand même, ça veut dire qu'en un an et demi,
enthropique et open AI ont régressé.
C'est quand même dingue quand on y a réfléché.
Et alors, comment c'est possible ?
Factuellement, ça serait vrai.
Là, je trouve que c'est quand même une preuve
qui est relativement objective.
Je vous l'ai dit avec un petit bémol, c'est pas parfait,
mais relativement objective que c'est pas une hallucination.
On n'est pas, si vous avez eu cette impression,
vous derrière votre interface, vous n'êtes pas seul.
Collectivement, on est tous d'accord en fait.
Et est-ce que si on prend des benchmarks logiciels,
cette fois-ci, pas humains ?
C'est plus compliqué.
Ok.
C'est plus compliqué, mais c'est intéressant quand même question,
parce que le problème des benchmarks logiciels,
c'est qu'on en a parlé effectivement
dans la dernière chronique sur Mistral.
Ils sont intrinsèquement faillibles,
parce qu'il y a toujours des problèmes de contamination,
du fait qu'un benchmark va se retrouver
dans une entreprise d'une manière ou d'une autre.
Globalement, on se rend compte que tu peux avoir
le meilleur modèle qui va performer le mieux sur les benchmarks.
Si ça se trouve dans le vrai monde,
sur les serveurs d'une vraie boîte
qui en a besoin pour son appli,
en fait, il va être éclaté au sol
à comparer un modèle qui performe moins bien truie-mien.
C'est pour ça que si tu commences à entraîner ton modèle
pour qu'il soit bon dans les benchmarks, c'est totalement de plus.
C'est la fin du monde, exactement.
Donc, qu'est-ce qui expliquerait ça ?
Cette régression sur un an et demi.
Parce que quand tu regardes la courbe de progression
sur l'année d'avant,
t'as l'impression qu'on va atteindre l'intelligence générale
l'année d'après, tu vois,
qu'on est au bord du gouffre.
Et en fait, c'est pas du tout ça qui se passe.
Et on a plutôt une régression là sur...
Ah non.
Moi, si jamais j'ai une hypothèse...
Alors pas partout, on n'opine source,
c'est pas le cas du tout évidemment,
ne faites pas dire ce que j'ai pas dit,
mais si ça se trouve, ce que je vais dire
va être invalidé dans les deux mois qui suivent
quand j'ai pété 4.5 pour ressortir.
Mais, est-ce que tu as une hypothèse ?
Mais enfin, c'est pas une hypothèse, c'est juste un constat.
Je me dis qu'est-ce qui a changé entre
chat GPT il y a un an
et chat GPT maintenant ?
Et je me dis, en fait,
il se nourrit des retours qu'on lui fait nous.
Et est-ce que, en fait,
vraiment, j'en sais rien du tout.
C'est pas nous qui l'entraînons mal
par nos évaluations des réponses qu'on fait sur chat...
Là, je parle vraiment de chat GPT,
je sais pas comment en Claude,
mais je sais qu'ils prennent des feedbacks
sur comment on a trouvé la réponse,
nos conversations avec...
Si ça se trouve, c'est juste nous,
on est trop mauvais pour interagir
avec chat GPT et en fait,
il était un peu pur à sa sortie
et du coup, en fait, il était vachement efficace
et il est devenu...
influencé par l'humain
et du coup, c'est devenu une merde humaine.
Alors, non mais, écoute-moi bien,
ça, c'est une des théories les plus solides,
absolument, qui sont avancées par les gens.
Je suis refait.
Pourrais expliquer ça.
Je suis refait.
Alors, je vais revenir dessus.
En gros, il y a 3 grandes théories
qui pourraient expliquer ça.
Donc, la première, c'est celle dont on t'a parlé.
À savoir, si vous avez remarqué,
sur l'interface de chat GPT,
une fois sur 20 à peu près,
on va vous demander de noter
la réponse d'OpenAI.
Donc, vous avez une interface
avec 2 réponses possibles
et vous devez dire laquelle vous préférez.
Salut ! Si vous appréciez Ender Score,
vous pouvez nous aider de ouf !
En mettant 5 étoiles sur Apple Podcast,
en mettant une idée d'invité que vous aimeriez qu'on reçoive,
ça permet de faire remonter Ender Score.
C'est d'une fusée.
Effectivement, il y a des beaux de chance que ces données-là
soient utilisées à des fins de l'entraînement
pour améliorer,
pour rapprocher l'IA
théoriquement de ce que l'humain,
l'utilisateur final voudrait.
Ça serait logique, il le fasse en tout cas.
Ça serait logique,
ça paraît comme une excellente idée.
Mais effectivement, il y a pas mal de gens qui disent que,
si ça se trouve,
ça a participé à le baisser,
à lui faire baisser sa qualité.
Puisque, nous humains,
on serait des mauvais profs, en fait.
On serait pas en mesure d'identifier objectifment
quelles sont les réponses les plus informatives,
les plus utiles.
Et donc, ces élections-là,
en petit à petit,
fait dévier TjPT
de son intelligence originelle,
on va dire,
pour arriver à ça aujourd'hui.
La deuxième explication possible,
et sa régence que tu disais Rémi.
Je me demandais, est-ce que c'est pas OpenAI
qu'a changé ses objectifs,
parce que nous, on évalue sur certains critères,
mais c'est quoi la réalité de l'OpenAI ?
C'est quoi leur objectif ?
Si ils continuent à mettre à jour, ils ont leur propre...
Moi, je pense quand même que de manière générale,
faire des réponses utiles et pas paraître seuse,
ça devrait être leur objectif.
Mais c'est pas le cas, je sais pas ce qui se passe.
Je sais pas, je sais pas.
Ils sont dans tellement de...
Enfin, ils ont plein de problèmes en ce moment,
de pas citer des articles de presse,
parce que malheureusement,
même si c'est d'excellente donnée,
ils ont des problèmes de droits avec,
ils sont dans plein de soucis juridiques,
où ils sont dans la sauce à chaque fois
pour des sorties,
ils sont obligés de compenser...
Moi, je pense que ce serait...
Il y a un décalage dans le timing,
et que ces acteurs d'été récentes
sont trop tardifs par rapport à ce qu'on observe
dans le qualité, je trouve,
pour que ce soit une bonne explication.
Mais la deuxième possibilité,
c'est ce que tu disais, c'est à dire,
la lobotomisation des modèles propriétaires.
Un truc que les gens savent,
c'est que si on demande à Chagapéter
de faire des trucs illégaux,
mais pas que illégaux, justement,
qui ne serait-ce que par une certaine interprétation
à tout petit peu borderline
et qui pourrait éventuellement vexer
un roumain à l'autre bout de la planète,
pour je ne sais quelle raison,
eh bien, il va vous dire,
je ne peux pas le faire,
car je suis un modèle d'IA responsable.
Il est devenu très puritain,
je ne sais pas si c'est le mot Ponyan.
Oui, je pense que c'est un bon mot, effectivement.
Et ceci existait dès le début,
c'est-à-dire que c'est ce qu'on appelle le RLHF,
Ray Enforcement par Human Feedback.
Comment tu le traduises ?
Enforcement Learning Human Feedback,
attends.
Comment tu traduirais ça ?
Donc c'est du réenforcement d'apprentissage
par feedback humain.
Super visé par l'humain, ouais.
Exactement.
Et c'est la technique
qui a un peu débloqué les modèles de langage.
Donc il ne faut pas cracher dessus,
parce que c'est vraiment le truc
qui a permis à chat GPT 3.5,
notamment d'avoir un monté en gamme
aussi important entre la GPT 3
et la version GPT 3.5.
Donc c'est vraiment un truc qui est positif,
qui est qu'on utilise des cohortes de gens
pour évaluer via un processus
extrêmement codifié les réponses
de chat GPT.
Il y a un petit côté crash test aussi,
je sais que quand chat GPT a été réalisé,
il n'y avait quasiment aucun filtre.
Tu pouvais demander comment fabriquer
une bombe lucaire.
Il ne s'était pas souci,
voici les ingrédients, on t'a besoin de tout.
Et on sait que très rapidement,
ils ont fait des mises à jour
et que c'était de plus en plus dur
de trouver des façons
de contourner ces restrictions, etc.
Donc on sait qu'ils...
Bah c'est ça, justement,
et ce que...
Là où j'en venais,
c'est que sur les premières versions
de chat GPT,
il y avait déjà un système
de feedback humain
qui lui faisait refuser
certaines requêtes, etc.
Mais ce qui est probable,
la théorie qui a été mise
et qui se vérifie, honnêtement,
assez facilement,
c'est que petit à petit,
à chaque fois que globalement,
quelqu'un arrivait à demander
à chat GPT
à lui faire générer un output
qu'il ne lui plaisait pas,
probablement qu'il allait goller
quelque part sur Twitter
ou quelque chose comme ça,
et que OpenAI, petit à petit,
a dû mettre de plus en plus à jour
son système de renforcement
de...
par feedback humain
pour intégrer chaque petite
gueulante
faite à chaque personne
qui n'était pas contente.
Et au petit à petit,
ce...
c'est...
en anglais, ils appellent ça
des safeguard rails,
guard rails,
je sais pas comment...
j'aurais dit...
Des garde-fous ?
Ouais, bien sûr.
Ah oui, c'est chaud.
Bonne chance.
Donc petit à petit,
ils ont dû rajouter des garde-fous
et des garde-fous
dans leur modèle de...
de filtrage
et que...
ça...
ça ait participé lentement mais sûrement
à une lobotomisation
d'une certaine manière, du modèle.
Parce qu'un truc qu'il faut réaliser
c'est que c'est pas un odein,
c'est-à-dire qu'on pourrait se dire
oui mais on rend juste le modèle plus safe,
finalement, c'est bien d'être safe,
n'est-ce pas ?
Et ben, en fait,
il faut réaliser qu'il y a un vrai trade-off
entre la sécurité
et la performance.
Et ça, ça s'observe
dans absolument tous les benchmarks.
C'est-à-dire que si tu prends
tous les modèles open-source,
en général, ce qui se passe,
c'est que sort une version officielle.
Par exemple, Meta, quand ils ont sorti
Lyama, ils ont sorti
une version qui s'appelait
Lyama Chat avec.
Donc c'est le modèle de base,
c'est-à-dire le modèle de fondation,
comme on dit, sur lequel
ils ont entraîné le côté chat assistant.
Lyama a fait ça.
Mistral, pareil.
Alors, est-ce qu'ils l'ont fait ?
Je ne suis plus sûr
si dès le début,
il y avait une version instructe
ou chat, en général,
ça s'appelle comme ça.
Mais ce qui se passe à chaque fois,
c'est que la version officielle,
donc safe,
se fait instantanément explosée
par toutes les versions non censurées.
Donc, dans la communauté open-source,
on s'est rendu compte de ça assez rapidement.
Et donc, des dataset non censurés
ont été créés,
ou globalement, ils ont enlevé
toutes les réponses.
En tant qu'une IA responsable,
je ne peux pas vous faire
une bombe, ils ont enlevé tout ça,
ils ont créé des dataset clean non censurés
et vraiment, ça ne coupe pas.
À chaque fois,
ça explose le modèle officiel censuré.
Donc, c'est une explication
qui n'est pas en mode complotiste,
de genre pas content,
parce qu'on leur laisse pas
créer des trucs horribles.
Ce n'est pas ça.
Globalement,
il y a de très bonnes raisons
de croire que,
d'une manière générale,
les performances sont dégradées
dès que tu mets des filtres
trop importants.
Ça doit être un challenge énorme
chez Open AI.
On sait qu'à l'époque,
Sam Altman s'est fait virer,
puis est revenu.
Ils avaient notamment des débats
sur c'est quoi l'objectif de l'IA,
si il faut qu'elle soit performante
et qu'on pousse à fond pour que ça se vendre.
Est-ce que c'est un objectif financier
ou est-ce qu'ils veulent la jouer safe ?
Il y avait une grosse partie de l'équipe
qui était là en mode, non,
mais la priorité, c'est d'avoir
des modèles bien safe
qui donnent des données justes
et qui ne sont pas dangereuses.
C'est là où, justement,
en gros, les différentes boîtes
pourraient avoir différents objectifs.
Et vous risquez d'être intéressés
par différents modèles
suivant vos objectifs.
Et en fait, pour moi,
la vie le plus raisonnable là-dessus,
c'est ce que fait Mistral.
Ou en gros,
quand tu publie des modèles Open Source,
tu ne fasses que...
J'ai dit à dire ce que fait Mistral,
mais c'est ce qui se passe actuellement
dans la communauté Open Source.
À savoir,
les entreprises, genre Meta, Mistral, etc.,
ils mettent à disposition
des poids
qui ne sont pas censurés,
parce que leurs audiences
ce sont des développeurs.
Et en gros, ils mettent la charge
de la responsabilité
à la fin, les développeurs,
de faire en sorte que leurs utilisateurs
ne leur demandent pas des trucs
illégaux ou parfaitement émoraux.
Et en fait,
il y a une confiance
qui est mise
dans les utilisateurs avertis
pour les laisser eux-mêmes
gérer leur sécurité.
Ce que ne fait pas du tout Open AI,
et c'est extrêmement énervant,
et vraiment,
pour le coup,
leur cote pourrait être extrêmement
plus élevée qu'elle n'est actuellement,
si jamais il ne m'était pas assez en place.
En gros,
il se donne un aim,
le rôle moral,
de vérifier que globalement,
tout le monde est gentil,
tout le monde dit il est beau.
Et ce qui se passe à l'inverse,
dans les communautés Open Source,
c'est plutôt de dire
on vous fournit des modèles,
et la seule garantie qu'on vous fait,
c'est que c'est les plus performants que possible.
Sur la question de la morale
et de la sécurité,
on vous laisse vous débrouiller
après, vous avec vos utilisateurs.
Et ce qui correspond
aux missions d'une certaine manière
d'Open AI,
on pourrait dire mais oui,
mais eux ils mettent en place
un produit public,
et donc c'est normal qu'ils soient safe.
Sauf que,
ils le font dans leur API.
C'est à dire que,
en gros,
cette lobotomisation d'un modèle,
elle est effective dans l'API,
un truc qui n'est pas utilisé du tout
par les développeurs, etc.
C'est intéressant,
parce que je me souviens,
au début de tout ça,
il y a beaucoup d'Arknakers,
qui utilisait justement PonyRy
pour faire des chats GPT,
pour faire des bots,
des choses comme ça,
qui disaient,
passer par l'API,
parce qu'elle n'a pas les mêmes restrictions
que la version web.
En gros,
la différence entre la version d'API
et la version web,
c'est le prompt system.
Donc pour le coup,
sur la version d'API,
tu n'as pas de prompt system,
et donc,
le modèle est un peu moins guidé,
un peu moins orienté,
à te faire des réponses mielleuses.
Mais, globalement,
le modèle de base
ne change pas vraiment.
La différence est que tu peux acceder
à des modèles plus anciens,
tu peux remonter,
comme on l'a vu dans les benchmarks,
à des chats GPT de version Mars,
etc.,
qui sont probablement
meilleures que les récents,
mais à priori,
c'est la seule différence,
malheureusement.
Et ce qui fait que,
avant de parler de ça,
un autre exemple qui est hyper frappant,
dont on s'est rendu compte au bureau,
et que je t'ai montré,
je sais pas si t'en souviens,
ça ne concerne pas le chat GPT,
mais ça concerne Dali.
Donc Dali, évidemment,
qui a une API à disposition
pour les développeurs
pour faire de la génération d'image.
Moi, ça m'intéressait énormément,
parce que mid-journée,
qui est un des concurrents les plus sérieux,
n'a pas d'API.
Donc...
Toujours pas là ?
Non, ne permet pas au développeur
d'interagir avec son truc.
Je sais pas pourquoi,
c'est rageant,
mais c'est comme ça.
Donc Dali 3 est une des seules
actuellement plateformes
de génération d'image
qui, à un niveau extrêmement acceptable,
et qui soit utilisable via API.
J'aumais évidemment
tous les modèles open source,
qui sont aussi très bien,
mais voilà.
Et ben, je me suis rendu compte d'un truc.
C'est que si tu envoies
une requête à Dali 3
pour te générer une image,
déjà, le truc
que beaucoup de gens ne savent pas,
c'est qu'il y a une étape
intermédiaire.
C'est-à-dire que
c'est pas tu dis
j'aimerais un hacker à capuche,
et lui, il envoie directement
à la génération d'image
pour te faire un hacker à capuche.
Au milieu,
il semblerait,
mais alors c'est documenté par Openair,
qu'il y ait GPT4,
ou enfin, une version de chat GPT
qui passe
pour reformuler
ce que toi-même t'as écrit.
Donc,
il y a une explication à ça.
Attention, c'est pas juste pour faire chier.
L'humain, c'est pas parler.
L'explication, c'est qu'ils ont
entraîné leur modèle sur des promptes très longs
pour qu'ils soient hyper forts
à comprendre des scènes détaillées, etc.
Et donc, ils ont imaginé
ce système en deux étapes
où tu donnes ta génération d'image.
Puis, chat GPT te la complète
avec une scène distincte.
Donc, au lieu d'écrire,
je veux un hacker à capuche,
il va te mettre
dans une pièce sombre
avec des spots lumineux,
un hacker avec un laptop
qui ressemble à ça,
qui est en train de travailler
de manière très mystérieuse.
En gros, il va te complexifier
et t'inventer plein de détails
pour que ton image à la fin
soit potable.
Sauf que,
je suis en train de faire une génération,
je générais plein d'images et plein de trucs.
Donc, je me dis, je fais un hacker
qui fait je sais pas quoi, je sais pas quoi, je sais pas quoi.
Et je me trouvais quand même que
dans mes images,
ils me fournissaient des résultats particulièrement originaux.
Notamment,
une fois sur deux, j'avais une accuse par exemple.
J'avais un hacker, une accuse, un hacker, une accuse.
Après, dans des scènes,
parfois je demandais,
j'aimerais un hacker qui rentre,
qui arrive à bypasser
l'entrée, la sécurité d'une entreprise.
Et je commence à avoir des nouveaux personnages
qui apparaissent dans ma scène.
Je n'ai pas demandé, tu vois.
Moi, j'ai demandé juste un coeur qui rentre un endroit
et je vois des nouvelles personnes.
Et je pensais, par exemple, je vois, genre,
une madame d'Afrique du Nord
en Hygniap, tu vois.
Ou après, je vois un Indien
ou un très spécifique,
très spécifique exactement, un Chinois.
Et je fais plein plein de générations, tu vois,
et je n'ai pas demandé des affiches de l'ONU.
Je veux juste...
Je veux juste générer une scène simple, tu vois.
Et en fait, ce que j'ai découvert,
parce que tu peux avoir accès
aux vraies promptes, donc aux promptes
que lui, il crée en bout de chaîne,
il te le renvoie en réponse.
Je ne sais pas s'ils ont eu raison de faire ça,
parce que tu cosé comme ça, que j'ai vu le truc.
Mais en gros, il te modifie ton prompt original
et sans te demander ton avis,
il te rajoute dans ton prompt des attributs
sur le genre, la nationalité, etc.
Donc tu vois, tu en retoustes,
tu es en train de générer ton image au calme.
Et en fait, tu as des...
tu as des...
des bouts de phrases complets, mais ça peut faire
une demi-phrase vraiment complète.
Tu en prends un petit peu, il peut quoi droplet ?
Juste parce que, partout où il peut,
il te rajoute des attributs comme ça.
Alors je ne sais pas si ça a continué,
je ne sais pas si ça se trouve, ils l'ont testé une semaine,
il y a plein de gens comme moi,
parce que ça a des conséquences,
ça n'est pas juste au un, au un, ça me fait chier,
parce qu'ils ne suivent pas mon prompt.
C'est juste que moi, je n'étais pas en train
d'être sur une interface publique
à générer des images pour mes réseaux sociaux,
c'est pas ça. Je suis en train de créer une application
en tant que développeur
pour un objectif très précis
où j'avais besoin de maîtriser
parfaitement mes prompts
et d'avoir mon interaction avec mon...
Mais tu crois qu'il te invente des trucs, ça te foire tout quoi ?
Ça me faisait tout exploser
parce que,
comme ça tout seul,
tu n'avais pas moyen de le bypass avec un prompt
en mode n'invente rien.
J'ai utilisé le truc recommandé par OpenAI
pour ne rien inventer,
c'est-à-dire qu'il te donne la solution et te lise,
il te donne un pré prompt à utiliser
pour que tu n'aies aucune altération
de ton prompt. Et bah, il y a ça,
j'avais
mes petits potes de chez OpenAI.
Et je me demande si c'est parce que
ils n'ont pas fait un data set et tout,
ils se sont dit, ok, nos data sets sont vraiment trop biaisés,
et au lieu d'améliorer leur data set
parce que peut-être c'est compliqué et tout, je sais pas.
Mais évidemment, qui est...
On fait un patch avec un pré prompt ?
Ouais, j'ai une réponse à ça.
Évidemment que c'est ça.
C'était à l'époque de Dali 1 ou 2,
donc vraiment les premières versions,
tout de suite quand ça sortit, les gens ont dit
effectivement on retrouve les mêmes biais de représentation,
il n'y a pas assez diversité, des choses comme ça.
Et le premier patch qu'ils ont appliqué, c'était
littéralement, à la fin de ton prompt,
rajouter des mots-clés, femmes, hommes, etc.
Et on s'en est aperçu parce que des personnes,
on trouvait une astuce qui est géniale,
ils ont écrit photo d'une femme,
photo parlant d'une personne,
avec un panneau où il est marqué,
et comme Open Air est rajouté au bout du prompt
des mots,
ça générait un panneau où les mots étaient liqué
sur le panneau.
Donc si tu as écrit photo d'une personne tenant un panneau
où il était écrit, tu devrais rien avoir,
et parfois tu avais des panneaux où c'était écrit...
Bien pour moi.
Et donc on a su qu'ils faisaient ça,
j'avais déjà fait le patch pour éviter
d'avoir des pieds et essayer de...
Je voudrais qu'ils améliorent leurs data set,
normalement comme ça qu'on fait.
Exactement, c'est-à-dire que la question
c'est pas tant de dire,
c'est très très chiant,
qu'il y ait une représentation dans les IAS, c'est pas ça.
Il rajoute du biais en fait.
Déjà je suis un putain de développeur,
donc à partir du contrôle,
genre laisse-moi faire ce que je veux.
J'imagine que tu racontes l'histoire
précise d'une personne
qui est connue, qui mesure à 1,80 m,
qui a les cheveux noirs etc, tu veux
mettre des photos qui correspondent précédemment.
Et là tu as des personnages qui apparaissent,
à un moment j'ai cru devenir fou.
Mais imagine, tu fais ton appli
ou de la cinquième fois je t'envoie de mes...
Mais d'où viennent ces gens ?
Comme moi.
Alors c'est une question très bête,
mais pourquoi tu t'es pas dit que tu allais faire ça avec Stable Diffusion ?
Parce que actuellement je trouve
qu'en termes de qualité et de suivi du prompt
et de génération notamment de bout de texte etc.
Ah oui, si tu veux générer du texte c'est mort.
Dali 3, les avantages qui sont vraiment assez incroyables.
Ils sont vraiment forts d'ailleurs, bon, à en avoir mais
c'est les seuls à être forts sur le texte quoi.
Ouais, Dali 3...
La version 6 c'est un peu meilleur.
Aujourd'hui on ne parle pas de
d'images normalement, on parle de ça.
Donc tout ça pour vous dire, la conclusion c'est
que c'est pas
absurde du tout, cette explication
de
du fait que certains modèles
perdent en qualité.
C'est raisonnable de
d'imaginer que tout ce qui est
barrière de sécurité,
garde-fou de sécurité, est vraiment eu
un impact sur l'épée. Mais
il y a une autre explication. Une autre explication
qui est même
encore plus séduisante et plausible
de mon point de vue.
Qui a que
le problème qu'a OpenAI actuellement,
et que non pas tous les modèles open source
qui cartonnent et qui marchent hyper bien
c'est qu'ils ont beaucoup d'utilisateurs.
Mais genre, vraiment
beaucoup, beaucoup d'utilisateurs
qui ont eu très rapidement,
alors on sait qu'ils ont eu énormément
de fonds de Microsoft, toute une
infrastructure pour déployer ça. Mais de
manière générale, on sait que un des gros
problèmes d'OpenAI, c'est
d'être rentable. Et c'est d'arriver
à financer le coût hardware
monumental que représente
ces fermes de GPU qui servent
ChaqGPT 3 et 4
à la planète entière.
Une des
bonnes raisons qu'on a de croire que c'est
très très cher de faire ça,
c'est que
depuis un an et demi, il n'y a pas eu
beaucoup d'autres GPT 4 minorés.
Donc
la théorie
comme quoi GPT 4
coûte un putain de bras
à faire tourner. Et
que OpenAI serait complètement à perte
mais genre bien encore plus
que l'on se l'imaginerait,
est plausible. C'est pas impossible
de faire un type que ce soit vraiment
très très très cher.
Et du coup, qu'est-ce que tu fais quand
t'as un produit qui est extrêmement
coûteux, utilisé par des millions et
des millions de gens avec des piques
grands comme ça, c'est que tu cherches
les solutions que tu as à ta disposition
pour baisser
le coût de tes inférences. Donc en gros
pour faire en sorte que ton ordinateur
il y ait besoin de moins de puissance de calcul
pour générer un certain nombre de token.
Et répondre à ton chat, parce que
la problématique c'est toujours de maximiser
combien d'utilisateurs
simultanés vont pouvoir
interroger GPT 4 qui tourne
sur une ferme de serveur.
Vas-y avant que je...
Non, c'était... Est-ce que on parle que de
GPT 4, ou aussi de
GPT 3 à 3.5 ? On parle
de tous les modèles propriétaires
qui ont suffisamment
d'exposition
pour avoir des gros problèmes
de délivrabilité et d'arriver
à correctement servir
leur million, dizaine de millions
d'utilisateurs.
Je vais dire, c'est dommage de payer pour un truc qui marche
moins bien. Du coup ça concerne
tous les modèles.
Et donc actuellement
ce que tu peux faire pour augmenter
les performances de ton serveur, c'est
utiliser du code plus efficient
des millions de modèles. Actuellement
par exemple la plupart des
serveurs qui fournissent des chatbots
ils utilisent VLLM
c'est le projet
par excellence qui permet de
servir avec la
meilleure efficacité possible
beaucoup d'utilisateurs. Mais ça c'est bon
on va dire, c'est l'état de l'art
il est ce qu'il est, tu peux pas faire mieux
que ce qui existe actuellement à un prix vrai.
Une autre technique
qui est possible, c'est de réduire la taille
des modèles. Donc c'est à dire que tu prends
ton modèle de base que tu as entraîné
donc faut s'imaginer que c'est une grande
matrice de nombre
et tu vas réduire
ta taille. Alors tu peux te dire
c'est con, si tu divises
par deux la taille de GPT4 par exemple
j'imagine qu'il te deviendrait
deux fois plus bête, intuitivement
on se dirait ça. Mais en fait
pas du tout. Parce que
faut s'imaginer que ces modèles
donc ces grandes matrices de nombre
en fait c'est des matrices
de nombre flottant.
Donc en général c'est
des flottes 32 ou des flottes
64 je crois, suivant le
style entraînement ou l'inférence etc.
ça dépend un peu des architectures
mais faut se dire que
ce sont des nombres à virgule
où il y a vraiment beaucoup
beaucoup de virgule pour une très très grande précision
si je vous rappelais vos cours de maths
de collège ou de lycée, mais
l'écriture scientifique, à savoir le fait
d'écrire un nombre sous la forme
1,
plein de virgule, fois dispusion
c'est quelque chose, et bah en fait
c'est comme ça qu'on stocke
les nombres sur un ordinateur. Les nombres
flottant jusqu'à un. Je ne rends pas
dans plus de détails. La seule chose
à comprendre c'est que cette matrice
de nombre, si on veut diviser sa taille
par 2, on peut par exemple
la réduire en précis, lui enlever
de la précision. Donc au lieu que
tes nombres à virgule
isait genre 32 chiffres
après la virgule, et bah
tu vas passer à 16 par exemple.
Et du coup
tu n'es pas en train de diviser par 2
ton modèle, tu vois, c'est pas ça, c'est juste
que tu réduis sa précision
et
globalement ce qu'on observe, c'est que
ça ne change quasiment pas
ses performances. Surtout
si tu réduis par exemple de 32
bits à
seulement 16. Là on observe
des changements qui sont en fait assez
limités. Ce processus
on appelle ça de la quantisation
et c'est un truc dont le grand public
et moi aussi autant du parler avec
l'arrivée des modèles open source, c'est
qu'en gros, si tu peux avoir un modèle
de 32
milliards de paramètres, peut-être
que normalement il devrait faire une
trentaine de gigas par exemple, mais grâce
à de la quantisation, tu vas pouvoir
résuer la précision de ses poids
et passer par exemple
en fp16 ou
en q8
ou en q4 ou q3, q2, q1 etc.
En gros, c'est juste
des nommants clatures qui ont été créés
pour décrire à quel point
tu fais des concessions sur la précision
de tes poids. Justement, l'impact
est limité. Il n'y a pas un peu un côté
théorie du chaos
ou un peu de manque de précision, plus
simplement de précision à la fin, ça
s'accueule ? Exactement. En gros
à un moment
on pensait que c'était quand même assez
limité, mais en fait c'est possible
que ce soit quand même un trade-off. Un trade-off
qui ne serait pas genre catastrophique
mais qui existeraient quand même.
En fait,
des gens ont fait des tests sur le niveau
de perplexité des modèles. Alors, sans rentrer
dans le détail, c'est juste une manière de savoir
si un modèle est
performant et si
il sait
prédire de manière correcte la suite
d'un texte.
Ce qu'on fait les gens, c'est qu'ils ont créé
des courbes pour comparer les différentes versions
quantisées, pour savoir si
mon modèle
qui fait 30 Giga, je le passe
en 24 Giga ou en
18 Giga ou en 15 Giga,
à quel point l'impact est sévère
au niveau de la qualité.
En gros, ce qu'on observe, c'est que
si tu utilises une
représentation sur 8 bits
t'es très très proche
de la qualité originale. Si tu passes
en 4 pour le coup, ça va être largement
dégradé. A 2, ça va être bien pire
que ça, etc. Donc on a
une idée vague
de l'impact de la quantisation
sur les performances.
Mais ce qui est à peu près certain pour le coup
c'est qu'en niveau de la performance
t'as des gains qui sont
vraiment incroyables. C'est-à-dire que
en nombre de tokens générés par seconde
et en quantité de mémoire nécessaire
c'est génial.
Toi avec ton GPU par exemple
si tu as une 4090
avec 24 Giga de mémoire
vive sur le GPU, tu vas pouvoir
faire tourner des modèles qui font
70 ou 34
de manière plus réaliste
34 milliards de paramètres
sans problème grâce à la quantisation.
Donc c'est en fait
génial. C'est vraiment trop bien.
C'est bien mieux de prendre un gros modèle quantisé.
Exactement. En quantisé je suppose ça c'est bien
mais qu'un plus petit modèle
avec moins de paramètres mais qui n'est pas quantisé.
Exactement. C'est vraiment exactement ça.
Et dans tous les benchmarks ça s'observe.
Dans les versions de récentes de
chatch gpt, je sais qu'ils ont sorti gpt4
turbo etc. Est-ce que c'est ce genre
d'optimisation qu'il y a derrière ?
Eh ben le truc c'est qu'on ne sait pas
dans les faits
personne ne sait de quelle manière
comment l'architecture
le back end de Open Air function
et qu'est-ce qu'ils ont fait avec leurs modèles etc.
Mais c'est une théorie très solide
que effectivement les versions turbo
les versions récentes etc.
Pour pouvoir les déployer et les servir
à énormément de gens, il passerait peut-être
par de la quantisation.
Alors attention,
c'est pas pour ça que
tu ne peux pas faire un modèle
à la fois performant et précis.
Il y a des gens qui vont imaginer
des stratégies pour
réduire la précision par exemple de certaines
couches du modèle mais pas de toutes.
On ne va pas rentrer dans l'architecture
de l'IAMA parce que c'est quand même un peu compliqué,
ça a des histoires de transformeurs et tout ça.
Mais en gros, il y a des certaines
que tu peux avoir certains d'ailleurs, certaines breaks
que tu vas garder à leur précision
complète mais d'autres
que tu vas quantiser et réduire en précision.
Et tout ça te permet
de globalement avoir le meilleur
des deux mondes à savoir de la super performance
et en même temps, quelque chose de relativement précis.
Mais
ce qui est à peu près sûr, c'est que
quantisation égale perte de précision
égale perte de performance.
Et c'est hyper trait parce que
tu peux garder le même nom, tu vois, si ça se trouve
OpenAI, ils te disent
qu'ils te donnent GPT4
mais en fait, dans la version Web
par exemple, c'est pas vraiment GPT4
c'est la version quantisée
à mort qui est hyper rapide
et qui marche genre
5% moins bien ou 8% moins bien
tu vois, ça peut être de cette ordre là, pas assez
pour que
ce soit démontrable vraiment
mais suffisamment pour qu'on
se rende compte et on se dit c'est quand même bizarre
qu'ils sont un peu...
qu'ils n'aient pas bien réveillé, tu vois.
Et voilà, il y a une dernière explication
qui est un peu troll et que je vous gardais pour la fin
qui est que
on pense que GPT4
et de manière générale les LLM sont sensibles
à des facteurs externes. Donc par exemple
si dans le prompt système y a écrit
«on est au mois de janvier»
eh ben il y a des chances, enfin
ça a été mesuré dans certains papiers
qui performent moins bien que si tu lui dis
que t'es en mai par exemple
ou à une autre période de l'année
ou peut-être que de manière générale
les gens sont plus motivés, travaillent mieux
et pété un peu de soleil, il vit à vie.
Il a appris de nous, genre...
Exactement. Donc c'est
une autre théorie qui permet de l'expliquer
bon, c'est honnêtement plutôt pour la vanne
parce que j'ai pas l'impression
que ça a été démontré sur des très très grandes
bases de données et que
ce soit vraiment très très fiable comme résultat
mais c'est une des dernières explications.
Donc voilà, toutes les possibilités
qui pourraient expliquer que
globalement si vous avez l'impression chez vous
que GPT4 devient moins bon
ça a fait des super articles.
Oui, ça fait des bons articles, exactement.
Si vous avez eu cette impression derrière votre interface
vous n'êtes pas fou, il peut y avoir
de très bonnes raisons que effectivement, ce soit moins bien.
Mais est-ce que si on reprend l'exemple, lui
on est obligé de faire parler
de la GPT plus qu'avant, lui dire
non mais je veux vraiment que tu me répondais tout
ça pourrait venir de la quantisation
c'est compliqué de savoir en fait.
C'est compliqué de savoir exactement quel est l'impact
ce que tu peux observer
toi chez toi, c'est que si tu prends un modèle
avec
précision complète
et que juste après tu lances une version
extrêmement quantisée ou vraiment
tu as réduit les dents reprêlés au maximum du maximum
ce que tu veux observer comme comportement
c'est juste que
d'un côté, t'as l'impression de parler
à une personne en seconde
et de l'autre à un enfant de 8 ans, tu vois.
Ah, à ce point là ?
En gros c'est que tu constates
qu'il devient incapable
et juste qu'il répond à côté de la plaque
et c'est un peu la même sensation
étrange que tu as entre GPT4
et GPT3, tu vois.
Tu as une certaine quantité d'informations qu'il a appris
forcément, tu le soques dans un modèle qui fait 4 GB
ou qui fait 2 GB parce que tu as réduit
il y a un moment où il faut bien que l'information
disparaisse exactement. Et voilà, il faut qu'elle parte quelque part.
C'est très perturbant parce que c'est pas du tout linéaire
c'est-à-dire que tu peux diviser par 2
en GB la taille de ton modèle
et avoir quasiment aucune perte
ce qui laisseraient penser
qu'il y a beaucoup de données perdues peut-être
dans les versions non quantisées
mais ce que moi
le plus fascinant dans tout ça c'est à quel point
on n'y comprend rien. C'est-à-dire que
c'est un domaine de recherche actuellement
il y a des papiers qui se penchent
là-dessus, je demande sur voilà
à quel point on maximise vraiment
ces modèles-là
un modèle qui fait 100 GB
à quel point on utilise vraiment chaque partie
de chaque couche à son plein potentiel
et globalement la réponse
pour l'instant c'est, franchement, on sait pas trop.
En fait c'est un peu un domaine où on est obligé
de rétro-engineer
ce que les gens trouvent en IA
et c'est pas un truc qu'on avait l'habitude de faire en informatique
mais dans d'autres secteurs en biologie
on essaye de nous analyser en permanence
mais là en fait on fait ça avec Asia alors qu'à la base
le code c'est nous qui l'écrivons
donc on a pas besoin de le faire et en fait du coup
maintenant ils sont obligés de faire ça.
Mais la conclusion qui
qui me laisse à la fois
rêveur et frustré
c'est que
actuellement on sait que le meilleur
des meilleurs des modèles
il existe probablement
mais personne n'y a accès
vous n'y avez pas accès, je n'y ai pas accès
ça m'alponne peut-être
exactement, non mais il existe
une version de GPT4
qui est la version de base
donc le modèle de fondation
puisque c'est toujours comme ça que ça marche
tu crées un modèle de fondation
et après de suite entrainent
le concept j'ai de chat
de l'assistant
et donc
ils ne l'ont jamais sorti
il n'y a aucune version actuellement
de GPT3.5 Turbo
je crois que c'est l'onté de sortie ça là
il n'y a aucune version de GPT4
du modèle de base qui a été sorti
et l'explication
de tout le monde c'est que c'est juste
ça serait trop dangereux en fait
et puis c'est pas leur modèle
c'est ça, ils n'ont pas
à implémenter leur couche
de sécurité etc
probablement que c'est trop dangereux
tellement c'est le meilleur modèle
de la planète
invaincu depuis un an et demi ce qui est quand même fou
quand on y réfléchit
qui est bien en de choses sur le serveur
d'opinion et qu'on ne peut pas utiliser
c'est pour ça qu'ils sont si bons en fait ils ont un joker en interne
il y a un mi-incroyable qui garde juste pour eux
non mais c'est vrai je peux
c'est pour ça que je dis que à la fois
on fait un an et demi, mais je crois
on en connait pas
je pense qu'on est pas loin
non ils ont fait leur un an il y a un ou deux mois
ah oui ok c'était 3,5 ans et un an et demi
ah mais quand même
allez vite calmant
donc pour ça que je disais
c'est un peu déprimant
parce qu'on n'y aura jamais accès probablement
et un des trucs que j'espère c'est
si jamais Open AI crash par exemple
ou ils bancroutent
ou je sais pas Sam Altman il se fait encore virer
j'espère qu'il y a quelqu'un qui va
juste en soum soum prendre le modèle
sur une discursure
et le mettre en torrène
s'il vous plaît
c'est possible techniquement
bah c'est-à-dire
il doit être très gros non
bah probablement oui
les rumeurs disent que
il ferait, ce serait un modèle MOE
donc comme mixtrale
et si je dis pas de connerie
ce serait genre 8 fois
100 milliards de paramètres
je crois que c'est comme ça
il me semble que c'était de cette heure là
la récente estimation
d'après un leak
ça serait un truc qui ferait
8 fois 100, à peu près 100 milliards de paramètres
donc c'est le plus gros
qui existe probablement dans le monde
mais
ça tient
sur la discursure
si on parle pas avec un discursure
je pense ça pas
ok ok
si on revient sur 3.5 turbo
il est sorti en open source
non
c'est fake news, un faux chat
on est d'accord qu'il n'y a aucun modèle d'open source
aucun modèle de chat non
ben whisper
ah oui bien sûr
mais ça évolue, peut-être pas chez Open Air
mais typiquement le premier Yama
on y a eu accès parce qu'il a leak
on sait pas trop
il a mis un open source
un accès limité
je crois que t'avais accès mais il fallait être rechercheur
c'est très limité
j'ai pété 1 et 2 oui
non non
c'est pour une catégorie de gens
et je pense que eux-mêmes
savaient en fait
quel modèle là ?
le premier Yama
avec un accès très limité et le deuxième
ça a été très assumé open source
ça d'ailleurs
est-ce que c'était comme tu le dis
il le savait et tout machin c'était prévu
ou ça a été vraiment une grosse boulette
et ils ont changé de
aller au pas c'que tout l'eau pensait au j'y crois moyen
j'y crois moyen ils sont trop intelligents
pour croire que donner accès à un modèle à 2000 personnes
ne voulait pas dire le donner accès à la planète entière
genre c'est
parce que la suite c'est direct
c'est en fait c'est suite
c'est juste qu'il fallait faire un formulaire
pour
oui d'accord, j'avais pas bien compris
c'est pas mal