Pourquoi Banque Populaire est la première banque des entreprises ?
Je me posais des questions sur le partage de la valeur pour mes salariés.
Elodie, ma conseillère Banque Populaire, m'a proposé une solution d'épargne salariale sur mesure,
rapide à mettre en place et que je peux piloter en ligne.
C'était simple et surtout ça a fait des heureux.
Accompagner nos clients sur tous les territoires avec des solutions adaptées à leurs besoins,
c'est ça, être la première banque des entreprises, Banque Populaire, la réussite est en voulue.
Étude Quantar PMEP, mid-2023, Quatorze Banques Populaires, Première Banque des PM.
J'ai voulu éblier aujourd'hui, on va parler d'un sujet que j'ai sous le coude depuis longtemps.
On veut l'errecevoir, évidemment on veut l'errecevoir.
Il lui dit à chaque émission.
On lui dit à chaque émission, on veut l'errecevoir et ça va arriver.
Ne vous inquiétez pas, ça va arriver, on va finir par l'errecevoir.
C'est voilà, ici une histoire de timing, toute une question de temps.
Mais c'est pas grave, parce qu'au contraire,
en réalité, c'est plutôt pas si mal qu'il soit pas là,
parce qu'on va faire une rétrospective, et on n'aurait pas eu le temps de tout faire.
Et donc là, on va commencer par faire une rétrospective de toutes les dingueries
qui se sont produites sur les quelques derniers mois.
Parce qu'on a parlé un peu d'IA generative vis-à-vis de la vidéo et tout,
mais on a un peu fait une pause en réalité sur tout ce qui concerne les concurrents de chat GPT.
Open Source.
Et c'est de ça qu'on va parler aujourd'hui et de rien d'autre.
Aujourd'hui, je vais vous présenter une entreprise très particulière,
créée par 3 Français, un ancien chercheur de DeepMind et deux qui étaient chez Meta.
Cette entreprise qui n'existait pas il y a à peine 8 mois,
a eu le temps dans cette intervalle de faire trembler toute l'industrie de l'IA,
en publiant des modèles alternatifs à chat GPT qui explosent toute la concurrence.
Être valorisé à presque 2 milliards de dollars.
Le tout sans aucune communication, ni vidéo promotionnelle déceptive.
Rien.
Unicement.
Ce qui est la meilleure communication.
Ce que fait cette boîte me hype tellement que je vais quasiment tous les jours sur Twitter,
exclusivement pour vérifier qu'ils n'ont pas fait des nouvelles annonces.
Et c'est véridique.
Laissez-moi vous expliquer à quel point nos petits Français ont explosé le game
et comment vous pourriez aussi en profiter.
Pour commencer, ce que je vous propose c'est de regarder un classement
et pas n'importe quel classement.
C'est un tableau des meilleures intelligences artificielles
qui sont concurrentes à chat GPT.
Vous allez voir, il y a plein de trucs très intéressants dans ce tableau.
Par exemple, on dirait que chat GPT regresse entre plusieurs versions.
C'est non, on peut voir qu'il y a aussi des scores qui sont incohérents,
qui ne sont pas dans le bon honte, c'est bizarre.
Et surtout, il y a ces petites lignes jaunes.
Open Hermès Mistral machin.
Mix Mistral Instruct.
Que des noms qui évoquent le vent finalement,
elles payent pas de mines.
On dirait même comme ça qu'elles ne sont pas si bien classées,
mais se seraient passées à côté de la révolution.
Et je pèse mes mots qui se cachent derrière.
Et qui explique que toute la sphère ya de Twitter
ne parle que d'eux depuis novembre.
Pour bien comprendre ça, il va falloir d'abord que j'explique quelques trucs.
Déjà, il faut réaliser que comparer des LLM comme chat GPT
et donc les classées, c'est assez galère en fait.
Il y a pas mal de manière de mesurer la performance d'un LLM,
mais pour faire court, c'est pas simple, vraiment pas simple.
Il y a des benchmarks qui sont en gros des listes de questions
qu'on peut poser à un LLM pour vérifier ses capacités.
C'est un peu comme une interrogation écrite automatisée.
On teste différentes matières,
de la logique, des maths, de la culture générale.
Je vous ai montré quelques exemples.
C'est vraiment ce que vous pourriez faire à l'école comme un QCM.
Je sais pas si tu as des exemples, Tilo.
Donc là, par exemple, petite question de philosophie.
Ah ouais, ça...
C'est vraiment précis.
C'est vraiment précis.
On demande des questions sur la philosophie de Kant
et il faut remplacer avec le bon terme.
What the fuck ?
C'est vraiment précis.
Autre question...
Attends, tu sais répondre à ça toi ?
Non.
Autre question, là pour le coup, c'est des maths.
Et là, c'est un peu plus simple.
C'est de faire une racine carrée.
Et globalement, c'est un peu toujours ce même genre de paterne,
à savoir arriver à mesurer en filo, en socios, en logique,
en billets de raisonnement aussi.
Enfin bref, il y a toute une flopée de dataset
qui ont été conçus pour mesurer
si un LLM performe mieux qu'un autre.
On peut appeler ça des benchmarks ?
Exactement, ce sont des benchmarks.
Le problème, c'est que c'est déjà arrivé
que des modèles cartonnent en théorie,
avec des scores de fou,
mais en fait,
soit pas dingue.
Ça arrive assez régulièrement.
Par exemple, c'est potentiellement le cas des modèles de Google,
genre Gemini,
qui sont sortis il y a à peine deux semaines.
On dirait qu'ils ont tout fait pour maximiser leur score de MMLU,
qui est un benchmark très prisé et très regardé.
Sauf que, apparemment, quand tu l'utilises,
c'est dur d'expliquer pourquoi,
mais tu sens que c'est quand même moins bon que 4GPT4.
Alors que pourtant, sur certains benchmarks,
ça devrait pas,
le score théorique dirait que non,
mais c'est bizarre,
il y a un truc au fin et que tu sens que c'est quand même pas exactement pareil.
Et ça peut parfois s'expliquer,
parce que l'interro a fuité,
en gros, dans le dataset d'entraînement.
En gros,
c'est comme si les réponses apparaissaient dans les centaines de Giga de textes
que le modèle a appris.
Et du coup, c'est littéralement l'équivalent d'avoir les réponses d'une interro
qui fuite avant l'épreuve.
C'est pareil.
On est incapable de dire si le modèle,
il répond juste parce qu'il a une bonne culture générale,
ou si il a vu le test en fait.
Oui, il overfit quoi.
Exactement.
C'est assez ouf,
mais même si les benchmarks peuvent être intéressants,
on apprend des choses quand même sur différentes capacités dans différents domaines,
par exemple en code,
il y a HumanEval qui est très prisé pour savoir à quel point
des efforts à créer du code Python qui marche.
Ça reste intéressant,
mais ce qui est quand même fou,
c'est qu'on n'a pas trouvé mieux actuellement
que le feeling des humains pour savoir si un modèle est vraiment bon.
Et un des meilleurs benchmarks,
du coup, c'est la vie des gens.
Et surtout, est-ce que tel ou tel modèle
est utilisé vraiment en entreprise ou pas ?
C'est à dire qu'il y a des modèles qui avaient des scores de malades
qui ont IP tout Twitter, etc.
mais qu'actuellement, personne n'utilise vraiment dans des boîtes
parce que face à la réalité, en gros, ils ne sont pas oufs.
Et inversement,
tu as des modèles qui n'ont pas forcément les meilleurs notes,
mais qui sont utilisés partout
parce que dans des cas précis réels,
les entreprises jugeent que ça marche.
Donc en fait, c'est un peu de seule manière
de savoir si les modèles sont vraiment cool,
c'est est-ce qu'ils sont utilisés dans des boîtes
à terme, sur du long cours,
ou est-ce que leurs réponses satisfont les humains.
Du coup, pour faire des classements, comment on fait ?
Et bien en fait, on peut faire un système de vote.
C'est comme aux échecs,
on peut faire un élo, donc un système de points
pour comparer des réponses différentes de modèles.
Et en fait, on y revient à ce tableau.
C'est l'un des classements de ce type les plus connus.
Ce qu'on voit, Arena Ello,
en réalité, ça décrit toutes les batailles
qui ont été effectuées sur une audience cible
entre différentes réponses.
Donc en gros, on fait des battles,
on montre une question, deux réponses,
ou trois réponses, et il faut voter.
Et petit à petit, c'est vraiment comme des matchs d'échecs,
c'est comme d'un élo, et ça joue sur ton ranking.
Actuellement, c'est un des meilleurs moyens
de savoir si un modèle est particulièrement capable ou pas.
Et là, il faut vous dire qu'on voit vraiment le top du top.
Ok, ça c'est le très très haut du panier.
C'est-à-dire que cette liste continue en dessous à l'infini.
Donc c'est pour ça que même les petites lignes jaunes,
on a l'impression qu'elles sont en bas.
Non, c'est vraiment le podium,
du podium des tous meilleurs modèles,
qui est disponible là au moment où on tourne cette émission,
qui ont été testées sur le site en question, qui est très populaire.
On peut voir que pour l'instant, les tous meilleurs modèles en haut,
ils sont tous propriétaires.
Donc on reconnaît les GPT4, que tout le monde connaît évidemment,
toujours un des tronés, tout en haut.
Ce sont les différentes variations,
enfin on voit qu'il y a plusieurs lignes,
parce que c'est des variations différentes de mise à jour d'open AI.
Donc 0,3,14 par exemple, ça veut dire que c'est la version de GPT4 de mars 2023.
Dans l'interface web, on ne nous laisse pas la possibilité de l'échanger,
mais via l'API on peut.
Et donc c'est un modèle propriétaire, comme on le voit sur la dernière colonne,
c'est-à-dire qu'à part open AI et Microsoft,
personne n'a vraiment la main dessus physiquement,
à part à distance via l'API.
Ensuite on peut voir Claude d'Entropic,
on en a pas beaucoup parlé, mais c'est monté par d'anciens salariés de open AI,
qui n'est pas méga loin derrière, actuellement.
Peut-être qu'on en parlera parce qu'il y a pas de l'intérêt d'entrer à l'entrepérance d'entropic.
C'est clair, il y a une belle histoire autour de ça.
Globalement, c'est ceux qui sont le moins loin à leur actuel de GPT4.
Puis quelques versions de GPT3.5,
qui après des mises à jour successives,
restent en fait toujours très compatitifs actuellement,
surtout pour le prix.
Et plus bas, on aperçoit Google avec le Gemini Pro,
leur nouveau modèle annoncé il y a deux semaines à peine,
dont on va reparler un peu.
Tout ça donc, c'est ce qui est propriétaire.
Après, pour ce qui nous intéresse le plus, nous,
il y a les modèles ouverts.
Ils sont en général plus petits,
on va expliquer ce que ça veut dire juste après.
Ils demandent donc moins de puissance de calcul,
on peut les télécharger gratuitement,
les faire tourner en local et les réentraîner,
ce qui est un des trucs les plus intéressants,
sur nos propres données pour les rendre vraiment très très très très très forts.
Et alors, jusqu'à il y a quelques semaines,
il y avait en gros qu'une seule alternative sérieuse
à tchajapt et ses variations,
dont on avait déjà parlé, c'est Liyama 2.
Plus précisément, des versions améliorées,
donc Fine Qnée de Liyama 2, le modèle de Facebook,
qui finissent d'optimiser au max du max
le travail qu'a fait faire dans son modèle dits de fondation.
Et qui sont assez précurseurs sur le fait de rendre Open Source un LLM.
Qui sont promis à avoir fait ça,
en tout cas, qui soient visibles.
Il y en a d'autres mais c'est le premier.
C'est effectivement eux qui ont lancé la grosse vague,
dont d'une certaine manière, nos héros du jour sont les héritiers.
Sauf que vous avez vu que,
je vous ai dit il y a quelques semaines,
il y avait quasiment que Facebook avec Liyama.
Mais il y a quelques semaines,
il y a deux mois exactement,
il y a des petites lignes jaunes qui se sont ajoutées au tableau.
Ça s'est passé comment ?
Mistral, le compte Mistral qui n'était suivi alors par quasiment personne,
a publié un tweet.
Le tweet, vous allez le voir s'afficher sur vos yeux.
J'adore.
C'est pas celui-là.
C'est celui d'avant.
Toujours...
Tout va bien, tout va bien.
Tranquille, on a le temps.
Le tweet qu'ils ont affiché,
attention le suspense monte, est à son congle.
Un tweet de la société Mistral.
Exactement.
Il publie ça.
Pour ceux qui ne savent pas ce que c'est,
c'est un lien magnète.
C'est tout simplement un torrent qu'on peut télécharger
avec...
Bah voilà, un bit torrent,
comme on télécharge un film piraté
ou alors plein d'autres trucs,
Open Source, c'est aussi un bon moyen de partager des...
des OS par exemple, ou des trucs comme ça.
Publie ça.
Pas d'explication, rien.
Pas de contexte, pas de vidéo promo, pas de billet de bloc.
Rien, juste ce lien.
Et quand on clique dessus,
on découvre un modèle à 7 milliards de paramètres.
Et là, il faut qu'on explique un truc très important,
parce que je vous l'ai dit,
on peut avoir l'impression que ces lignes jaunes,
elles sont en bas du classement.
Mais en fait, ça,
ça, si tu prends pas en compte la taille des modèles.
En gros, on peut se figurer que c'est comme en box,
il y a différentes catégories.
C'est à dire qu'il y a les poids lourds,
il y a les moyens et il y a les poids légers.
Et en fait, c'est pas du tout la même chose
de se battre avec des modèles qui font 200 milliards de paramètres
ou avec des modèles qui font 70 milliards ou 7 milliards.
La différence, c'est...
enfin, ce nombre de milliards
décrit en fait la taille des poids.
Donc concrètement, c'est l'énorme fichier
qui contient le réseau neuronal
qui permet de faire les inférences,
donc de créer les messages, d'écrire sous vos yeux les tokens.
Et donc, plus un modèle est gros,
plus il demande de la puissance de calcul.
D'avoir des serveurs gigantesques
avec des cartes graphiques de Nvidia
qui coûtent 25 000 euros pièces,
qu'il faut cumuler même,
souvent, elles ne suffisent pas à elles-mêmes,
qu'on cumule pour à la fin arriver à héberger
des modèles qui vont faire du coup
100 Giga, par exemple, ou 200 Giga,
ce qui en termes de mémoire vive de cartes graphiques.
C'est beaucoup, voilà, il faut vraiment
beaucoup d'argent pour financer ce genre de serveurs.
Et c'est en partie ce qui explique
qu'ils sont uniquement sur des data centers,
ce genre de très gros poids-lourds.
On peut, souvent, on ne sait pas exactement
en plus qu'elles sont la taille des modèles propriétaires.
On pense que, par exemple,
à une époque, on pensait que les GPT-3 et compagnie
faisaient à peu près 130 milliards de paramètres,
si je ne dis pas de bêtises.
On imagine qu'Openaiaï a amélioré tout ça
et réduit cette taille, et peut-être que GPT-3.5,
Turbo est plus petit,
mais globalement, ce n'est pas trop.
GPT-4, c'est sûr que c'est énorme.
Et c'est même une architecture
où c'est tellement gros qu'ils doivent le séparer
en plusieurs poids-lourds.
En fait, c'est plus du poids-lourds.
En réalité, il y a probablement 8 poids-lourds
qui font peut-être chacun plus de 100 milliards de paramètres
et qui travaillent ensemble.
Autant dire que, hébergez sur ça, vous-même,
je serais sur un local.
Je serais sur un local.
C'est mort. Dites-vous que c'est juste mort.
C'est pour ça que
sont apparus des modèles plus petits.
Par exemple,
l'Iyama, quand ils ont sorti leur modèle,
ils les ont sortis souvent en 3 versions.
Ou voir 4.
Il y a le plus gros, il fait 70 milliards de paramètres.
Ça, pour vous donner un ordre d'idée,
c'est le plus proche de ce qu'on a
qui ressemble à une taille de modèles d'open AI
ou d'entropique.
Et ça, pour le faire tourner,
il faut en gros minimum 2 cas de graphique
des 4000 80Ti.
Si tu as 2 4000 80Ti,
donc qui ont chacune 24 Giga de mémoire vive,
tu peux espérer faire tourner une version
de ces gros modèles de Iyama,
donc de Facebook, les 70 milliards.
Et encore, tu dois passer par un processus de quantisation,
comme on dit, donc tu les restreins.
Mais, voilà, pour vous donner un peu un ordre d'idée,
par contre, actuellement,
c'était un des moyens d'avoir des modèles
quasiment équivalents à GPT 3.5.
Donc, c'était déjà cool.
Ils ont sorti également des modèles de 30 milliards de paramètres,
de 13 milliards de paramètres
et de 7 milliards de paramètres.
Vous pouvez voir qu'il y a quand même un pattern,
c'est à dire qu'à chaque fois on divise par 2,
et vous pouvez vous dire à quoi ça sert,
pourquoi ils ne mettent pas plutôt
toute leur énergie, tout leur argent,
à entraîner des ununiques modèles
qui soient plus forts que tous les autres.
Et bien, en gros, c'est un intérêt,
parce que différents modèles,
donc différents tailles de modèles, sont utiles pour différents trucs.
Tu peux avoir besoin d'un très très gros modèle
et donc d'une très bonne compréhension
d'une très grande culture générale
pour effectuer certaines actions
en faisant des compromis du coup sur le coût
par mot, le coût par token
et le fait d'avoir des très grosses infrastructures.
Mais parfois, tu peux avoir moins de...
tu peux avoir des besoins plus restreints
que tu es prêt à échanger contre des performances.
Donc par exemple,
si tu veux faire tourner un modèle
sur ton Mac mini qui a 16 GHz,
et bien, tu es très content, en fait,
qu'il y ait des modèles 13 milliards ou 7 milliards
qui tiennent en gros
en 4, 5, 6, 10 GHz
et que tu peux faire tourner
en local sur ta machine.
Donc ça a un vrai intérêt d'avoir des modèles
qui font des tailles différentes
et qui vont avoir des usages et des trade-offs différents.
Ça, c'est pour vous dépendre le tableau.
Actuellement,
pendant très très longtemps,
avec un modèle de 7 milliards de paramètres,
tu faisais quasiment rien.
En gros,
c'est intéressant pour faire...
C'est pas exact.
Tu fais pas rien.
Pour essayer et de...
Tu peux jouer avec.
Pour faire des résumés, ça peut marcher un petit peu.
Ou pour essayer de...
Je sais pas, de trouver des synonymes, un mot...
Des choses qui jouent avec le langage,
mais
à un bas niveau, on va dire.
C'est un élève de CM2, tu peux dire ça.
Et pour ça, c'était intéressant, mais globalement très limité.
13 milliards, c'est quand même un peu plus intelligent.
Peut-être qu'on pourrait dire
qu'il y a un élève de 6e, tu vois,
ou de 5e.
Et il fallait vraiment aller au 30, 70 milliards
pour avoir à peu près une conversation cohérente
et des messages relativement longs,
raconter des histoires qui sont pas sans connithète, etc.
Et on pourrait dire
que c'est un élève de 3e, par exemple.
Mistral.
Leur modèle-là,
qui ont annoncé dans un tweet
sans décor-hommes,
c'est un modèle de 7 milliards de paramètres.
C'est le plus petit qu'on voit être publié.
Il est dans le top 10.
Sauf qu'en fait,
il est complètement dingue.
Il est complètement dingue,
quand ils l'ont sorti, les gens,
ils croyaient à moitié,
on pensait qu'il y avait des bugs,
on s'est dit que ce n'était pas possible.
Ce que je vous expliquais, ils l'ont entraîné
sur des benchmarks, ça n'a pas de sens.
On ne devrait pas pouvoir obtenir ce genre de résultats
avec
un modèle qui tient dans un fichier
de 5 gigas.
Ça n'a pas de sens.
Mais en fait, si.
Leur modèle de 7 milliards, surtout quand il a été
fancyonné, c'est un peu les noms, les variations,
les open-rms, tout ça que vous voyez dans le tableau,
sont des versions améliorées par la communauté
qui ont poussé ce modèle
à un niveau où
il explose évidemment tous les 13 milliards.
Donc ça, ils ne sont même pas
dans la course. Mais également,
là on peut voir, il y a
l'IMA de 70 milliards tout en bas
qui
se fait absolument rétamer
par un modèle 10 fois plus petit
que lui. Donc c'est-à-dire que
actuellement la meilleure déclinaison
de Mistral, en 7 milliards de paramètres,
c'est Sterling LM7B Alpha.
Elle
explose
des GPT 3.5 Turbo,
des
PPLX 70 milliards,
70B, ça veut dire 70 milliards.
C'est la ligne Sterling
qu'il faut regarder. Exactement.
LM2 70 milliards,
c'est que des modèles
qui sont les meilleurs modèles
en 70 milliards de paramètres.
Je sais pas si vous vous rendez compte
de la pro-est que c'est,
et c'est ça qui a expliqué que
il y a deux mois, il y a eu une sorte de rat de marée
où tout le monde s'est mis à jouer avec ce
lien magnète, à le télécharger,
à le fin de tunnel, essayer de l'améliorer,
et à voir où est-ce qu'on pouvait le pousser
au maximum du maximum.
Et d'ailleurs, tous les gens qui s'amusent
à justement finituner un peu des modèles comme ça,
ils n'ont plus fait sur Yamaha 2 à ce partage là,
ils l'ont pris Mistral, je sais qu'on a vu
des effets apparaissent sur des gens de Huggingface
qui font un travail incroyable et même
je pense qu'ils contribuent
aussi à améliorer le modèle Mistral,
l'imagine qui discute.
C'est aussi un travail d'équipe, on va dire
que tous ces gens qui s'amusent, souvent
sur les épaules de géants, donc de Mistral en gros,
mais derrière font les
10 derniimètres pour
tirer tout le jus que contient
leur nouveau modèle de fondation,
donc comme on l'appelle, merci Tiffany
je m'en ravi, je ne trouve plus le nom.
Si on regarde le classement,
on peut du coup
voir que
ce modèle-là, surtout
dans ses versions finituner,
est quasiment équivalent à certaines versions
de GPT 3.5,
donc il ne lui fait pas
7, 70 milliards mais
encore le double.
Il y a quand même un petit subtilité
à capter, c'est que ça reste
un modèle petit et donc
tu peux avoir des réponses ultra qualitatives
mais on pense, c'est possible,
que typiquement au niveau de la
quantité d'informations que le modèle
connaît dans sa culture,
la quantité
d'infos d'internet qu'il a plus stocké dans sa mémoire,
on pense que
il va être
peut-être un peu plus limité dans certains cas
et
il peut avoir un risque
d'halluciner un peu plus souvent, d'inventer
des trucs qui ne sont pas dans son data set.
C'est peut-être
une toute petite nuance qu'on peut donner
au fait d'avoir un modèle de 7 milliards.
Mais à part ça, ça veut dire que
ce truc-là, vous pouvez le faire tourner
sur certains iPhones,
ou de manière plus réaliste sur votre Mac,
sans aucun problème, ça va tourner
à la vitesse de l'éclair, parce que c'est vraiment tout petit
donc c'est bien plus rapide
que vous ne pourriez le lire.
Ça veut dire que des développeurs même d'applications
peuvent maintenant l'intégrer en backend
pour, en local,
complètement sans avoir le moindre connexion
internet, avoir un quasi
JCPT 3.5. – Et je sais que aussi
il y a l'aspect où il le
livre sans
sur, entre guillemets, il n'y a pas un
préprôme de 15 km pour dire qu'il faut
être bienveillant et gentil, c'est à toi de le faire
si tu as envie de le faire, d'ailleurs ils le mettent
quand ils mettent le lien, ils expliquent
un peu, quelques jours après avoir posté un lien
soit il faut un article de blog sur
« On a posté ça » et ils disent
« Attention, vous pouvez en faire ce que
vous voulez, mais si vous voulez qu'ils disent
d'un gilet, ils peuvent répondre des d'un gilet. » – Et ça, c'est
hyper important d'en parler. – Ah, mince.
– Parce que, non, non, c'est parfait, c'est hyper important
d'en parler, le bénéfice
d'un modèle open source, outre tous les avantages qu'on lui a donné,
c'est effectivement qu'en général,
ils n'ont pas encore l'automiser.
– Ah, de fou pour faire simple.
Parce que, comme vous l'avez vu sur les
benchmarks,
régulièrement, des modèles propriétaires
baissent en performance.
Ça peut pas être paradoxal, normalement
une boîte, elle améliore ses produits.
Mais sauf que, dans le cas
de modèles propriétaires, ce qui se produit
souvent, c'est que pour rendre lia
safe, c'est à dire pour éviter
qu'elle vienne
titiller la sensibilité de
qui conque – Politiquement correct. – Exactement,
on a besoin de les contraindre, de les contraindre
pour qu'elle répondent, je suis unia, je ne peux pas
faire de mal, je vais te dire tout comme ça. – Surtout quand ils sont
grand public, en fait.
Surtout quand ils sont grand public. – Exactement.
– Ils n'ont pas d'interface grand public, fin.
– Ouais, non, c'est clair. – Ils ont lancé la plateforme, mais moi.
– Et du coup,
il faut bien comprendre que
c'est pas un odin… Tout le monde ne réalise pas
forcément ça, mais à chaque fois qu'on
contraint un modèle à être
safe, on le rend moins performant.
C'est une constante.
C'est-à-dire qu'on l'observe absolument partout,
l'un et l'autre sont un trade-off,
c'est toujours une balance.
C'est pour ça qu'il y a beaucoup de gens qui disent, non mais,
nous les développeurs, il mite pour ton interface web,
tu fais ce que tu veux, mais nous les développeurs,
donnez-nous les meilleurs modèles, en fait, des modèles absolument
par contraint, et après, on se débrouille
nous-mêmes pour savoir
si ou non on veut bloquer tel ou tel
type de message,
de questions, de discours, etc.
Et donc, c'est ce que Mistral a compris,
leur modèle n'est pas lobotomisé.
Et donc, il y a énormément de gens qui,
sans sa partie
filtrage safe, obtiennent les modèles les plus
performants du monde et parvenent comme ça à rivaliser
avec OpenAI. Salut !
Si vous appréciez Endorscore, vous pouvez nous aider
de ouf en mettant 5 étoiles sur Apple Podcast,
en mettant une idée d'invité que vous aimeriez qu'on reçoive.
Ça permet de faire remonter Endorscore, voilà.
Telle une fusée. Vous avez vu que, pour l'instant,
j'ai pas parlé d'une petite ligne.
Il en manque une là.
Il y a une ligne très haute.
Très haute en jaune. Et encore, on pourrait dire,
oui mais elle n'est pas tout au long de tout.
Ils n'ont pas fait aussi bien que j'ai pété 4.
Là encore, ce serait pas assez à côté
de pourquoi cette ligne est la
deuxième révolution.
Ça, c'est la première révolution qu'ils ont
lâché comme une bombe. C'était en fin septembre,
début octobre. C'est ça, il y a 2 mois.
Ça, ça a peine 10 jours.
Et c'est
une autre forme de révolution.
C'est-à-dire que nous, on était là,
à guetter, à attendre. Toujours la même chose.
Tu viens magnètre. Si on va sur leur raconte,
il n'y a que ça. Il y a des liens magnètes.
2 liens magnètes et c'est tout.
Pas plus de communication.
Là où, deux jours plus tôt, il y a Google
qui a fait en fanfare et en trompe
des vidéos, produits,
des économies.
Surtout que les vidéos de Google,
en réalité,
tu ne peux pas accéder au modèle derrière.
C'est-à-dire qu'ils ont dit, oui, on arrive, on a fait aussi bien que j'ai pété 4.
Mais pas mal non, mais bientôt,
t'inquiète, on me fera aussi bien. Plus
ils se sont fait accuser très rapidement
d'avoir faiqué en réalité les interactions
de la vidéo et qu'elle a été en gros
majoritairement
fait en post-prod, ce qu'ils ont avoué
après dans un blog post.
On peut y accéder à Gémini, parce que
moi, je suis retu, ça ne me pouvait toujours pas mais si depuis.
Tu peux accéder à certaines versions, mais pas
à Gémini Ultra, qui est censé être
leur compétiteur à Gémini 4.
Bon bref, tout ça pour dire, Mistral,
ils font toujours l'inverse, il y a 10 jours
et ils publient simplement un nouveau magnète.
Et alors là, c'est Noël, tu vois,
donc tout vaut le magnète et tu regardes ce qu'il y a dedans.
Et là, il y a un modèle qui s'appelle
Mistral 7B
x 8.
Alors, est-ce que vous avez
des idées, est-ce que tu finis, tu as une théorie sur ce que vous veux dire
ce nom cryptique ?
Ça s'appelle Mistral 7B x 8.
Genre, ils ont mixé plusieurs
il y a entre elles.
Exactement.
En gros,
on s'attendait
à ce qui sort peut-être des meilleures versions,
peut-être une version 13 milliards
mais c'est pas du tout ce qu'ils ont fait
parce que probablement, qui serve beaucoup mieux que nous
en réalité, ce qu'il faut faire,
ce qui est intéressant et utile.
Ce qu'ils ont sorti, c'est un modèle
dit de MOE.
Donc ça veut dire Mixture of Experts.
Donc un mélange d'experts.
Et alors,
sans, on va pas avoir le temps de rentrer vraiment
dans le détail de techniquement comment ça fonctionne.
Mais, dites-vous que
c'est une architecture différente
pour créer un modèle de langage.
C'est probablement, on est quasiment sûr
que OpenAI a utilisé cette architecture
sur GPT4. Et c'est comme ça qu'ils ont réussi
à attendre ce niveau.
Et le concept simple, c'est que plutôt que d'entraîner
un seul modèle, ce que tu fais, c'est que
tu entraînes différents modèles, mais
qui vont se spécialiser dans des domaines différents.
Pour faire
très simplifié et schématique,
c'est un peu ça. Pour faire simplifié et schématique,
c'est un peu comme si tu entraînais un modèle à être
super bon en maths, un autre à être super bon
en code, un autre à être super bon
en littérature et en philosophie.
Dans les faits, c'est quand même beaucoup plus compliqué que ça.
Mais, ce que ça permet de faire concrètement,
c'est
d'entraîner un modèle du coup avec
différentes branches.
Et en gros, c'est comme un serbert
à 8 têtes. Mais ou
lors de la génération, donc pour chaque nouveau token
généré, il y a seulement 2 de ces têtes
qui sont utilisées.
Là où c'est intéressant,
c'est qu'en gros, pour simplifier
tu bénéficies
de la taille d'un modèle
qui fait 8 x 7
sans
en payer le coût au niveau du hardware.
Donc
pour
le coût d'un 7 plus 7, donc pour le coût
de 14 milliards de paramètres,
tu bénéficies en quelque
sorte de 8 x 7.
Il est en fait
juste plus gros en taille,
mais il ne nécessite pas plus
de puissance de calcul, c'est ça ?
Exactement.
En gros, c'est
exactement ça.
Leur mix tral, donc
c'est un mélange d'experts
de leur premier mix tral. On se doute qu'ils sont
partis de leur première base
pour le lui faire atteindre
cette stratosphère.
Pas forcément seulement en termes de performance, alors
vous l'avez vu, il se débrouille extrêmement bien.
En gros, on peut considérer qu'il est
peu près du niveau de GPT 3.5
même un peu au-dessus
dans les tests, mais
ce n'est pas ça le plus fou. Le plus fou, c'est que
tu peux le faire tourner sur un Mac
M3 Ultra
qui a 64 Giga d'oram.
Donc tu prends un Mac
qui se vend
j'y appelle pour 2-3 000 balles
et tu peux faire tourner, littéralement en local
un concurrent
de GPT 3.5 qui est probablement
même un peu meilleur en réalité.
C'est fou, c'est la première
fois de l'histoire que c'est possible.
Et le deuxième truc
de fou, c'est
le niveau de performance.
Parce que pour l'instant, on a juste parlé de l'intelligence
mais ce n'est pas la seule chose qui contigue.
La vitesse des tokens aussi qui importe, c'est
à quel point tu vas vite
à répondre. Et eux
non seulement leur modèle est gigasmart
mais surtout,
il peut répondre à énormément d'utilisateurs
en même temps.
Et il peut générer des tokens
à la vitesse de l'éclair.
Donc en gros,
ça veut dire que sur ton
Mac qui a 64 Giga d'oram,
tu peux débiter du token
comme jamais.
Et pour faire le parallèle plus réaliste
tu as une entreprise et tu veux déployer
ta propre version de Mistral. Et je vais discuter
avec pas mal de boîtes qui sont totalement en train de faire ça actuellement.
Ils sont en train de prendre Mistral
de les finitiner sur leur version
et de déployer ça sur leur serveur.
Voilà, enfin c'est bon.
Je pense que même Mistral le fait potentiellement pour des clients et si on sait.
Exactement. C'est probablement un de leurs
business models d'ailleurs.
Pour ces entreprises-là,
ça va coûter beaucoup beaucoup moins cher
que ça ne coûte à OpenAI
de faire la même chose. Pour faire très très court.
Mais ce qui est fou c'est que
avec ça là, on a un chat
de GPT qui est meilleur que chat de GPT
à sa sortie si on prend il y a un an, un peu près.
On peut le finituner avec ses propres
documents
et habituent d'une boîte
en local en tout cas
pas exposé à des fuites sur OpenAI etc.
qui tourne sur une machine
qui est une machine classique
qui ne coûte pas non plus
un bras
et qui est disponible
en reline sur le veu
qui disponible pour tous les collaborateurs de la boîte
et tout. C'est sûr qu'il y a
15 applications
et que de toute façon
les modèles Open Source
c'est ce qui va aller le plus
dans les entreprises qui veulent vraiment un truc spécialisé
pour une tâche précise.
Bref c'est fou. Je pense que
vous réalisez du coup que ma hike
n'est pas déplacée. Je oserais même
dire que
là où certains parlent de bulles en mode
c'est une survalorisation de milliards, c'est beaucoup trop machin
je suis pas si sûr
parce qu'ils ne communiquent pas
cette valorisation, elle correspond
au potentiel que les gens voient
dans l'avenir d'une boîte
qui coup sur coup
a juste explosé
l'état de l'art en fait.
Surtout que, pour l'instant c'est
je vous ai parlé de petites révolutions
il y en a probablement
encore à venir en réalité
et comment on le sait ? C'est parce qu'ils ont annoncé
récemment leur cloud
donc en gros la version
hébergée si tu n'as pas les machines disponibles
ou alors que tu veux servir beaucoup d'utilisateurs
la version hébergée de leur modèle
qui s'appelle la plateforme
j'ai eu accès
et concrètement
c'est très cool
en gros
une version de la pays
d'openai, il y a même une rétro-compatibilité
c'est à dire que si tu as développé un service
pour openai, c'est les mêmes endpoints
tout marche pareil, tu as juste à changer
l'URL
tout va bien, malin
d'ailleurs dans une doc, ils ont mis
pour citer openai, il dit
ça marche comme notre fameux concurrent
il le cite pas
mais je trouvais la formule ça c'est incroyable
et du coup
sur cette plateforme
qu'est ce qu'on a découvert
qu'il y a effectivement les deux modèles qu'ils ont déjà publié
mais il y a un 3D model
ces deux modèles là
il les appelle
Mistral Small
attendez
je crois que c'est Mistral Medium
Mistral Tiny
Mistral Small
donc déjà
le Mistral Small
pour eux
c'est la petite ligne jaune tout en haut
et il y a un petit Mistral Medium
qui est en alpha
celui-là n'a pas été encore publié
pas exactement d'ailleurs ce qu'ils vont faire
ils vont peut-être un jour arrêter
de publier des modèles
on espère que non s'il vous plaît non
mais
ce Mistral Medium
tu peux déjà essayer les inférences dessus
donc il y a accédé via une appellie
exactement
et en gros ça promet
ça promet d'être encore un sacré morceau
il est probablement encore plus gros
et
au niveau du coup
est bien plus accessible
qu'un GPT4
on pense en fait qu'il se situe entre les deux c'est-à-dire
c'est probablement pas encore exactement l'équivalent d'un GPT4
mais que ça va te coûter beaucoup
beaucoup moins cher
à l'inférence ce qui est leur spécialité
j'ai une question un peu
mais alors tu me dis c'est un peu hardcore
t'as tué je serais pas
est-ce qu'ils expliquent
du coup comment est-ce qu'ils ont réussi
à compresser
alors sur la partie MOE
de passer de 7 milliards
ouais pour passer à 7 milliards de paramètres
tout en étant autant
efficace et bien la réponse
est non
et ils l'assument totalement
c'est à dire que eux ce qu'ils font
c'est qu'ils sont open weight
c'est à dire qu'ils offrent
des modèles à la communauté
pour qu'on fasse jouer avec
mais ils gardent leur recette
secrète et Clément
il l'assume il dit non mais voilà c'est nous
c'est la manière dont on veut fonctionner
on veut vous donner des super
joues ouvert
que vous pouvez utiliser
par contre on garde nos recettes
pour pas se faire attraper tout de suite
c'est un peu leur politique
franchement moi si ça leur permet
de financer
l'entraînement du prochain GPT4
open source
tous les jours je signe
il n'y a pas de problème gardez vos recettes secrètes
vous partagez les plus tard peut-être mais
ce qui est fou c'est qu'ils sont français et du coup
à moins de ce que j'ai lu ils font tourner leur entrainement
avec Skelway
avec l'euro HPC
le super calculateur européen et tout
et donc en fait ça contribue
à créer un écosystème incroyable
parce qu'en fait ils sont méga des terres
pour revenir sur le médium
du coup ils viennent en concurrence frontale
avec Entropique
parce qu'en gros Entropique
leurs stratégies on essaye de faire
comme GPT4 en un peu moins bien
mais on est moins cher
exactement ce que t'as dit pour le médium
à mon avis encore moins cher
et probablement mieux
parce que
là on a parlé un peu de ces benchmarks
et rapidement après la découverte
de ce mistral médium
il y a pas mal de gens qui ont commencé à faire
des traits de twitter où ils font des comparaisons
sur des sujets hyper précis
entre GPT4
et mistral médium
et moi je trouve ces exemples là
qui sont les plus intéressants parce que ce genre de benchmark
c'est un peu flou mais c'est quand tu vois des vrais problèmes
souvent c'est les problèmes de développeurs je trouve c'est ceux qui sont les plus intéressants
quand tu vois des vrais comparaisons
sur une manière d'approcher un problème complexe
entre deux IA que ça devient intéressant
parce qu'un truc à préciser
c'est que le GPT4 qu'on voit tout en haut
c'est les versions de l'API
et il y a pas mal de gens
qui commencent à constater si ça vous intéresse
enfin je vais recommencer
il y a pas mal de gens qui commencent à constater que
les versions publiques de OpenAI
de chesh gpt
deviennent de plus en plus débiles
ils essaient des trucs qui marchaient il y a encore 6 mois
un an, tu vois t'as demandé de générer des scripts
et des trucs comme ça
ou à une époque où ça marchait bien
ils réessayent aujourd'hui ça marche beaucoup moins bien
qu'est-ce que tu entends par version publique
c'est à dire que les versions accessibles
dans chesh gpt dans l'interface
ok, frontaine
et donc tout le monde est un peu perplexe
et il y a plein de théories sur pourquoi
est-ce que les versions de GPT4
deviennent moins performantes
avec le temps sur les interfaces de chesh gpt
il y a plein de théories je vais pas rentrer dedans
parce que je vais en faire une chronique
bientôt, je sortirai sur cette même chaîne
vous pouvez vous abonner si ça vous intéresse
incroyable
et ça devrait être dans 2 semaines a priori
oui, juste après la vacance
et du coup
un exemple frappant que j'ai vu
c'est par exemple
un exercice de codage en piton
la demande qui était formulée
à mixtral d'un côté et
à GPT4
c'était écrire un script
qui peut rentrer un fichier csv complet
qui fait un milliard de lignes
dans une base de données SQL
pas besoin de comprendre vraiment l'énoncé
dites-vous juste que c'est un problème de programmation
non trivial
donc c'est pas, en gros c'est un bon moyen
de vérifier si vous avez en face de vous
un élève de troisième ou un pi hd
quoi
parce que la bonne réponse en fait
c'est que tu peux pas simplement
faire une boucle
sur l'ensemble des
des entrées du csv
et les rentrer dans une base de données
il n'y a aucun système
il n'y a pas besoin de contexte supplémentaire
pour savoir que c'est juste impossible
il te faut une manière d'approcher
de problèmes plus intelligentes
ou tu marches avec des batchs
tu fais attention à la gestion de ta mémoire vive
des choses comme ça
il fait la démonstration et il montre que d'un côté
dans l'interface de chat GPT
dans la version 4
qui boulechit des trucs
qui ne servent absolument à rien
son code fonctionne à peu près
mais en gros il est paresseux
c'est pas qu'il est bête, il passe son temps
à te dire, non mais ça implémente le toi-même
commentaire
ça c'est quand même un peu trop compliqué
ça demanderait beaucoup plus d'investigation
et
tu vois le message
faut pas faire les blasés, ça reste très stylé
on a des attentes maintenant
qui sont hyper élevées mais globalement
tu ne vas pas hyper pertinent
t'as besoin de lui reposer des questions en mode
non mais vraiment donne moi le script
complet qui répond à l'énoncé et là il finit par y arriver
prof qu'il n'est pas con juste qu'il est devenu paresseux
la même demande
posée à Mistral Medium
et il te pond une réponse mais
ohhhh
du caviar
il commence pas à te raconter sa vie etc
c'est tout the point
ça te donne du code
qui ne sert pas exactement forcément complet
mais où tu as déjà des briques
intéressantes à savoir un système de batching
en gros il a une profondeur, une compréhension dans l'énoncé
et à la fin il te donne des recommandations
pour aller plus loin mais qui sont pas des recommandations
en mode
il est compliqué de faire du développement
on sait tous
à quoi correspond ce genre de texte
c'est des messages vides
c'est des conseils vides
voilà y a pas d'âme entre eux
on se fait chier
tu compares ça avec les recommandations
que te font Mistral
et là c'est actionnable
t'as des trucs très très précis qui sont évoqués
des services, des fonctions d'amputons que tu pourrais utiliser etc
et alors c'est un exemple
c'est avec ça vous rien
c'est pas une étude approfondie
mais moi j'ai trouvé ça quand même frappant
de se dire au moment même où on a l'impression
que j'ai pas tes quatre et en train de se prendre les pieds dans une tapis
et de devenir pas ouf
parce qu'ils ont probablement des soucis
de performance, il y a trop de gens qui l'utilisent et tout
au même moment
tu vois une courbe comme ça sur la performance
et les capacités de Mistral
et même si ça prouve rien
ça participe aussi à la communication
autour du modèle et le fait que ça prend de l'ampleur
et que ça peut aller encore plus loin
ça a créé une émulation
tout ça pour dire
merci Mistral
d'avoir créé cette boîte, merci à eux
ils sont juste trop forts, suivez-les si vous plaît
suivez cette émission
parce que c'est pas la première fois qu'on va
c'est pas la dernière fois qu'on va parler de eux
c'est certain et on espère vraiment pouvoir
les recevoir à nouveau
et franchement je veux dire c'est le genre de boîte
qui me rend de fière d'être français
tout ça que je ne le fous
ça fait rayonner la France
bien plus que beaucoup d'autres
beaucoup d'autres choses
donc ça fait très plaisir
et on croise les doigts juste
pour qu'il ne se passe pas la même chose que
d'autres grandes boîtes et belles
et beaux industriels
on ne s'y trappe pas de nom mais qui ont disparu
du gérant français et que Mistral
restera un énorme acteur européen
français
et voilà, on croise les doigts
parce que c'est quand même une trop belle histoire
et moi j'ai entendu dire
qu'en fait aux Etats-Unis ils entendent
bien plus parler que nous
au domicile
paradoxalement quand tu regardes
il y a des gens qui ont fait des stats
sur les téléchargements du lien magnète
pour voir depuis que tu peux savoir
depuis quel pays les IP proviennent
tu peux comme ça savoir c'est qui
quelles sont les pays les plus hautes taquettes
pour tester les nouveaux modèles
et les français seront là avec les allemands
les anglais etc
ou il est clairement
tu vois les américains
il n'y a pas le même engouement
c'est débile
mais il y a quand même
une petite communauté de boîtes françaises
qui s'est créée je pense à Hanging Face
qui est devenu un peu américain
mais c'est quand même France à la base
il y en a d'autres, moi j'ai vu des
ils ne sont pas au niveau de Mistral
ils ne sont pas valorisés comme Mistral
mais il y a Lighton, j'ai vu un truc qui jiscar
c'est quoi ce truc de jiscar
c'est de
je sais plus mais essayer de pas de corriger les IA
mais en faire un side
un side travail que les IA ne font pas mais que eux
ils pourraient faire à côté
et il y a plein de labos pour le coup de gaffe
qui sont hyper forts
et qui partit
bâchement l'écosystème
et même
en réalité
parce que là on
on joue la caricature
mais tous les modèles propriétaires
en général sont faits par des chercheurs
qui publie, qui participent
donc voilà
nous moi ça m'importe personnellement
le côté les poids sont accessibles
et tout, la réalité c'est que c'est pas du tout la seule manière
de contribuer
à la recherche et tout
et on peut citer Google et Facebook
comme des acteurs
et Amazon, comme des acteurs majeurs
de la recherche en IA
et en fait c'est un secteur
relativement jeune où en fait tout se passe
encore chez les scientifiques
et dont on est pas si papiers de recherche
ça commence à un peu changer parce que l'industrie s'en empart
mais le papier de Google de 2007
sur les transformeurs
il a traumatisé plus d'un chercheur
en intelligence artificielle, c'est une pépite ce truc
ce qui est terrible pendant cette chronique
j'ai raté tous les jeux de mots
sur les mistralgues
la mère qui prend l'homme
moi j'ai un truc, j'ai découvert récemment
je sais pas pourquoi je suis tombé
sur les annonces de Microsoft In-It
il y a quelques semaines moi c'était
avant le drama Open AI
et j'ai découvert le concept
de SLM, donc de small language model
je sais pas exactement
qu'est-ce qui réagit en SLM
il faut qu'il soit petit comment
mais j'ai appris que Microsoft développait son propre SLM
mais pas Open AI, vraiment en interne
à Microsoft qui s'appelle FID2
je crois, je l'ai absolument pas vu
je sais pas si c'est comparable avec MISRAL
je l'ai absolument pas vu dans le classement
parce que là je t'ai dit
c'est vraiment le podium du podium
je peux pas espérer avec moins de...
c'est fou c'est Microsoft ?
mais clairement
mais en fait la compétition est super
la compétition est super
tu dis Microsoft quand même ?
mais comme si Tiffany
c'est la guère
et c'est juste aussi que ça correspond
c'est pas des poils léger
ce serait des poils super super légers
c'est des enfants, un milliard
je pense que c'est pas comparable
pour le coup ça a plein de...
pour de la IoT, des trucs comme ça qui est fou
ou même un truc sur ton device
qui est spécialisé en code
il y a plein d'usages
c'est juste que ce podium-là ne décrit pas ça
dans combien de temps on a un modèle de fondation sur le téléphone ?
pas de temps
c'est une question de temps je vous le dis
avant qu'on ait mieux que j'ai PT4
surtout nos appareils
c'est vraiment ça va arriver très très vite
ça me termine
question importante, comment est-ce qu'on fait
pour essayer Mistral
et profitez de tout ça
option numéro 1
vous inscrivez sur leur site
et vous utilisez la paye c'est le moyen le plus simple
c'est à dire que vous n'avez pas besoin d'installer quoi que ce soit sur votre appareil
option 2
il y a une liste d'attente non ?
il y a probablement une liste d'attente
mais il y a pas mal de services qui l'hébergent
et qui te donnent accès à une playground
si tu t'appes genre
mixtral playground
tu vas trouver plusieurs moyens de pouvoir l'essayer
alors tu l'héberges toi-même
ou alors tu l'héberges toi-même c'est ça
mais justement, option 2
surtout si vous avez un Mac en général
je sais pas pourquoi c'est quand même souvent le plus simple
vous pouvez utiliser Studio LM
qui est une des meilleures applis
avec une interface simple
téléchargez n'importe quel modèle que vous trouverez
sur Hugging Face
et l'essayez
au maximum des performances en profitant de toutes les nouveautés
sur le GPU
les inférences rapides tout ça
directement sur votre ordinateur en local
notamment si vous voulez essayer
la deuxième ligne jaune
donc c'est pas Open Hermes, je sais plus comment il s'appelle
moi je l'ai sur mon ordice, c'est génial
donc pour deux fois que le site d'OpenAI
il l'ague ou alors je suis dans le train
je vais pas internet et je finis par juste utiliser
un modèle en local qui fait 5GB
j'ai déjà fini en le faisant mais ça marche
bon bref c'est de la magie noire
vous pouvez faire ça
et sinon c'est déjà en train d'être intégré
dans d'autres services
par exemple si vous voulez l'utiliser
pour du code, il y a une extension pour VS Code
qui est déjà dès maintenant
et compatible avec MISRAL
ça va très vite
et qui vous permet d'utiliser ça
directement pour des blocs de pépé
à tous les coups c'est eux qui l'ont fait
c'est possible mais c'est même pas sûr
parce que je pense que les gens sont tellement otakés
et en fait la communauté a créé
tellement de projets tout autour, un écosystème
tellement complet que maintenant ils ont juste un truc
à avoir la bonne glu pour intégrer
le nouveau modèle
et donc en plus ils ont l'air de faire les choses intelligemment
sur la façon dont tu peux avoir accès
à leur modèle et tout j'ai l'impression qu'ils
sont pas cons
mais ils sont bons pour entraîner des modèles
mais en plus sur la mise en application
la mise en prod et l'utilisabilité
pour les développeurs j'ai l'impression qu'en plus
ils sont pas bêtes
ah oui il y a aussi
j'ai parlé de StudioLM, il y a Oliama
O-L-L-A-M-A
c'est génial
c'est plutôt, donc ça c'est un outil en command line
mais l'avantage c'est que c'est un service
c'est à dire que ça tourne non stop
sur ton Mac
et en gros
il va pouvoir réveiller un modèle
quand tu envoies une inférence
sur le serveur local
donc concrètement c'est une sorte
d'équivalent de docker
pour les modèles de langage en local
c'est à dire qu'ils ont une syntaxe
pour décrire un modèle, quel est le prompt initial
et ça permet comme ça
de se partager très facilement
des modèles et d'éviter
à ce que chaque nouvelle appli
qui fait de l'IA réinvente la route
donc en gros tu t'insales une fois Oliama
sur ton Mac
et après d'autres applis vont pouvoir s'interconnecter
avec
sans avoir à gérer toute la partie télécharger un modèle
le mettre à jour parce qu'il y a eu une mage
qui a été publiée, tout ça tout ça
du coup c'est un peu comme StudioLM
c'est pas une interface graphique
ok, donc tu peux l'utiliser directement
en ligne de commande, ou ça peut être utilisé par d'autres applis
qui vont s'interconnecter avec
par exemple si tu as recast, tu vois, il peut discuter
avec Oliama
forcément tu me l'as vendu
bref, c'est si, et pour une autre
j'achète aussi
en vrai là tu me l'as vendu parce que je fais
passer tellement de trucs par recast
et encore, là je te l'ai rendu
mais maintenant si je te dis ok, maintenant tu as recast
et un lm qui peuvent parler ensemble
est-ce que tu peux pas imaginer
des trucs automatisés
tu t'es déjà plus ou moins fait
mais fallait payer je crois
c'était un peu chiant, bref
j'ai juste un autre chronique
qui nous dit que Mixtral tourne sur mac m1 pro
16 giga tranquille
en fait il a mi-mistral
il m'a dit mi-mistral 8x7b
donc c'est pas mi-mistral
c'est sure c'est mi-mistral
donc sur mon mac m1 pro 16 giga tranquille
sac à dos si tu as des infos
je vais clairement essayer
moi j'ai exactement ce modèle-là
c'est dingue
parce que oui t'as ça en plus
bref, j'espère en tout cas
que je vous ai partagé mon enthousiasme
et que je sais pas si tu suis dehors
t'as le temps parce que tu sais que t'es pris à mort
est-ce que t'as le temps de suivre un peu
ce qui se passe dans le game ?
si si je regarde carrément, je suis obligé
mais non mais c'est ultra cool
ça va beaucoup trop vite
à chaque fois, moi c'est marrant
parce que en plus là c'est la dernière
il y a pile poil 2 ans
que je suis venue à l'émission
en tant que réalité
pour la première fois
et qu'on a parlé de l'IA sur maincraft
j'ai l'impression que c'était dans la première histoire
et c'est juste incroyable
mais c'était comme des foot vans GPT3
qui écrivait 3 lignes de jamais
je sais pas si on le dit dans la vidéo
mais c'était GPT3
j'ai un petit doute, c'est tellement inconnue à l'époque
mais je trouve ça dingue
et en fait c'est marrant de se dire
là aujourd'hui c'est la dernière de cette année de 2023
c'est juste fou la vitesse
à laquelle c'est allé
c'est un throwback de la phase C
c'est fascinant, c'est clair
et s'il y en a qui veulent
je fais de la promo mais des coulisses
sur ton passage lors de la première underscore
avec ces fameux vidéos
sur maincraft
j'ai pas encore tout écouté
mais où tu expliques que tu es toi-même étonné
de ce que fait ton IA
c'est très marrant, regardez
ça s'appelle tronche de tech il me semble
c'est un peu drôle
est-ce que tu vois qu'il fallait en me...
si vous avez pas vu la vidéo
faut la voir parce qu'on a tous été surpris
quand il s'est mis à faire un truc
c'est génial
ce qui est super drôle
dans cette vidéo c'est qu'on est tous les 3
très honnêtement
mais halluciné de s'y entendre se passer
c'était juste...
aujourd'hui on regarde la vidéo on est pas du tout hype
c'est trop bizarre
par contre c'est vrai qu'elle a mal huillé
parce que...
la réalité c'est qu'il n'y a pas eu
une tendance d'intégration
bien foutue
on va se la manger la vague
de l'alame dans le jeu vidéo
mais pour l'instant ça reste relativement discret
à part dans le juin d et tout
je pense que cette vidéo a quand même
un effet wow toujours maintenant
si vous la regardez aujourd'hui faut la remettre
c'était avant chadjpt
par contre à mon avis dans 2 ans
quand juste dans GTA 6
tout le monde a une
personnalité
ultra deep
et tout bon là effectivement vous allez moins le ciment
même le scénario il serait imaginer
juste incroyable
moi je me pose une question
parce que nous on a beaucoup plus
de temps pour
juste scroller twitter
parce que ça vient nourrir des chroniques
est ce que ça te sert un peu de veille
aussi les chroniques
non mais clairement
non mais si
des fois vous parlez de trucs que je peux pas
en fait c'est impossible d'avoir les yeux
surtout et en fait quand je viens
c'est pas les impressions c'est que je découvre
des trucs à chaque fois
et puis en vrai je suis comme les gens dans le chat
tu es là wow
des fois c'est même pas mon domaine
donc je crois pas et tout mais non c'est super cool
c'est carrément malin
en fait
juste on a
un peu ce qui se passe
mais c'est notre job
tout ça mais tu as un truc où
avant l'émission tu te dis bah ils vont forcément
savoir de quoi je vais parler je vais parler de biper mini
c'est évidemment que tout le monde est au courant
tout le monde n'est pas un intravenu
non c'est fou
tout le monde n'est pas un intravenu
sur les news take
c'est ça