Arthur Mensch, fondateur de Mistral : ces français qui font de l'ombre à Open AI

Durée: 83m28s

Date de sortie: 26/12/2024

Hébergé par Acast. Visitez acast.com/privacy pour plus d'informations.

Les plus grandes histoires, vous attendent sur Disney Plus.
Que la force soit avec toi.
En ce moment, profitez d'une offre exceptionnelle.
Disney Plus est au prix de 1,99€ par mois pendant 12 mois sans engagement.
Offre Valab jusqu'au 21 janvier sur l'offre standard avec pub.
Résiliation possible à la fin de chaque mois.
Voir conditions sur Disneyplus.com.
Bonsoir et bienvenue dans Underscore.
J'espère que vous allez bien, que vous êtes bien installés.
Nous sommes mercredi 11 décembre, il est 19h pétante.
Et nous sommes très heureux de vous accueillir pour une superbe émission.
Je suis avec Mathieu.
Bonsoir, bonsoir à tous et tout.
Ça va très bien.
Aujourd'hui, on a un très beau programme, je suis vraiment très très content.
Frèrement, je suis très content, puisqu'on reçoit évidemment Arthur Mensch.
Ça va Arthur ?
Très bien.
Tu nous disais c'est ta première fois sur Twitch.
C'est ma première fois sur Twitch ouais, je suis très ému.
Ouais ouais, moi aussi.
Non mais évidemment depuis le temps qu'on parle de vous,
c'est très cool de t'avoir ici avec nous, en vrai,
pour parler un peu des coulisses de LIA finalement,
puisqu'on en parle beaucoup d'un point de vue extérieur,
mais c'est aussi un petit monde, un petit écosystème,
un tout petit en réalité.
Et on va plonger un peu dedans avec toi ce soir.
Et ça va être très cool.
Et en deuxième partie, on aura également un deuxième thème IA,
mais avec un prisme jeu vidéo,
puisqu'on parlera de comment LIA fait évoluer la Twitch.
On ne voit pas forcément le rapport.
Mais en fait, les studios de jeux vidéo
ont plein de nouveaux problèmes qu'ils n'avaient pas avant,
notamment à propos de l'Antitriche des Antichits,
à cause des modèles d'IA.
Ce sera tout à l'heure avec une chronique.
Avant, on faisait des intros avec des news, mais je ne peux plus m'imaginer.
Oh ça c'est... Non, ça c'est...
Ça date, hein.
Ça date, on en fait plus trop.
Ça date.
J'allais dire les news et les nouveaux modèles, etc.
Mais on va en parler avec notre invité évidemment.
Avant qu'on se lance un petit peu dans le vif du sujet,
donc tu nous as dit, c'est la première fois que tu arrives sur Twitch,
moi j'avais une petite question aussi avant qu'on commence vraiment.
C'est, est-ce que, d'entrer le jeu au moment où tu fais tes études,
tu... T'as commencé tôt à t'intéresser à LIA
ou t'as eu une autre passion avant,
un autre coup que tu t'es dit à plé dire par la putain,
ou c'était direct LIA ?
Moi j'ai fait des maths dans mes études,
je pense que ça date de 21 ans, le machine learning à l'époque.
C'était Andrew Henn qui volait des hélicoptères à l'envers.
Et ça commençait à marcher 2012.
C'est le début du deep learning.
Et donc à partir de là, j'ai commencé à m'y intéresser
et depuis j'ai fait que ça réfectif.
Est-ce que déjà à l'époque, tu sentais un...
C'est facile à dire après coup,
est-ce qu'à l'époque, tu sentais un truc comme quoi ça pourrait avoir
un impact fort sur la société, au point où ça en est maintenant ?
À l'époque, ça détectait les chiens et les chats en 2012.
Mais c'est vrai que c'est allé assez vite,
parce qu'en 2014, ça traduisait assez bien du français vers l'anglais,
de l'anglais vers l'allemand.
Et on a vu au fur et à mesure qu'on a ajouté du calcul
et essentiellement en suivant les mêmes méthodes mais avec plus de données,
on a vu les méthodes marcher de mieux en mieux
et devenir de plus en plus intelligente
avec des entrées de plus en plus flexibles.
Et c'est vrai qu'à partir de 2017,
moi je me suis dit que ça allait commencer un peu à marcher
et que les endroits où il fallait le faire,
c'était dans...
qu'il fallait pas mal de calculs.
Ouais.
Après, il y a des gens qui disaient depuis 2012
que ça allait marcher comme ça.
Je ne fais pas partie de ça.
Faire s'inventer.
Mais c'est normal, c'est comme avant tout, avant la guerre,
tu trouves nécessairement la personne qui a prédit exactement tout ce qui allait se passer.
Il y a des comptes qui faisaient ça pendant un couple du monde, divers diversions,
mais qui prédisaient exactement des suites de...
toutes les suites de matchs possibles pour après coups supprimer les trucs.
Oui, bien sûr.
Qui ne marchaient pas.
Être en mode c'est les divins.
Il y a peut-être la même chose qui existe.
Un peu moins d'impact sur la vie.
Ouais, un peu.
Après, rien de petit.
C'est marrant.
Moi ce que j'ai envie de faire avec toi, c'est de remonter un petit peu le temps.
On va parler du futur, de la perspective,
évidemment de ce qui est mistral aujourd'hui.
Mais ce que j'aimerais faire d'abord,
c'est prendre une petite machine à remonter dans le temps
et qu'on remonte au tout début,
au moment où justement vous n'êtes encore que trois,
pour comprendre votre état d'esprit, la jeunesse du projet,
parce que c'est quand même une histoire très singulière.
C'est-à-dire que vous gâpez.
Il y a beaucoup de gens qu'on va recevoir ici
qui auront une évolution qui ressemble à ça.
De trois à là, 120, tu me disais, dans ces eaux-là,
en aussi peu de temps.
Donc c'est ça qui est singulier
et je trouve qu'on devrait un peu s'arrêter dessus.
Si tu es d'accord.
Ma première question du coup, c'est
est-ce que tu peux nous raconter comment débute l'histoire de Mistralayaï ?
En 2023, vous êtes trois Français,
salariés donc de Google et Meta.
C'est quoi l'élément déclencheur, déjà, pour se dire ?
On va créer notre propre société face à ces géants
quand on est déjà bien installé confortable.
Je pense qu'il y a deux conversations,
une en septembre 2022 avec Timothée et une en novembre 2022,
alors à Neurips, qui est la grosse conférence de machine learning avec Guillaume,
où on s'est rendu compte qu'on avait des aspirations similaires
en fait de lancer une entreprise en France
et qu'on connaissait pas mal de gens que ça intéresserait.
Et donc à partir de là, c'est un peu le début de l'engrenage.
C'est-à-dire qu'au début, tu te dis, c'est peut-être une bonne idée.
Et puis au fur et à mesure, chaque jour qui passe,
tu t'impliques de plus en plus émotionnellement dans cette idée.
Puis à un moment donné, tu es un point de nouveau retour
parce que en fait, tu es plus dans l'idée que dans le travail, dans ton entreprise actuelle.
Et c'est à ce moment-là où tu dis que honnêtement,
il faudrait mieux que tu démissionnes.
C'est quand ça que ça se passe.
Et finalement, ça nous est plutôt arrivé.
Je dirais que quelque chose de très, très intentionnel.
Mais à partir de février, c'est vrai qu'on s'est dit,
là, on peut avoir 15 personnes, on peut aller vite, on sait le faire.
On peut démontrer que l'Europe peut faire des choses intéressantes dans le domaine
et reprendre une position leadership.
Et donc c'est comme ça que ça s'est fait.
Et à partir d'avril, on s'est lancé.
Donc Thau, il y a déjà cette idée que le projet c'est de faire de la
de l'IA très performante européenne.
Plus ça que juste on se sent un petit peu
peut-être ralentie par une grosse structure au-dessus de nous, donc meta ou Google.
Et on pense aller plus vite tout seul.
C'était quoi ?
Bon, on avait les deux.
En fait, on met Guillaume, Timoté et moi, on travaillait sur ce sujet depuis à peu près 2020.
Et on a vu ce qu'on pouvait faire avec des petites équipes très concentrées.
C'est vrai qu'en 2022, ces équipes sont devenues moins concentrées
parce que c'est le moment où le monde a réalisé
qu'il y avait une opportunité économique autour des modèles de langues.
Et donc on s'est dit qu'on pouvait bénéficier aussi de cet aspect
de désorganisation pour nous être mieux organisés et fournir des choses plus rapidement.
Donc il y a vraiment ces deux aspects là.
Et puis je pense que l'idée d'entreprendre,
c'est une idée que tous les trois on a depuis très longtemps.
Donc des missions, ça se passe comment le tout début ?
Vous avez chacun un peu une spécialité.
Comment vous vous organisez au tout début de la boîte ?
Alors on vient tous les trois du même...
Même formation.
De la même formation, on a fait la même chose.
On a tous les trois des thèses en machine learning.
Donc c'est vrai qu'on s'est rapidement spécialisé
avec Guillaume qui est le scientifique le plus fort d'entre nous,
qui a pris la partie scientifique.
Timoté qui est plus un ingénieur et qui s'est occupé de faire toute l'infrastructure
et de monter l'équipe d'ingénieurs produits aussi.
Et moi j'ai assez vite fait l'aspect levé de fond,
l'aspect par l'aigle des clients.
Bon c'est des choses que j'aimais bien faire.
Donc on s'est réparti comme ça assez vite.
Et pour revenir à comment ça démarre,
ça démarre par levé de fond en fait.
Parce qu'il faut la capacité de calcul
et il faut la capacité humaine pour avancer assez vite.
Et donc on a fait une levée de fond en quelques semaines.
Et à partir de là on était parti pour faire le premier modèle en sept ans.
C'est à dire qu'il n'y a pas une seule ligne de code en fait,
avant même de savoir que c'est bon, il y a une levée de fond qui va se faire.
C'est un domaine où il faut forcément attendre la levée de fond.
Si on veut commencer la première...
Tu peux un peu paralyser ?
Non on avait un petit peu codé.
Ça surtout Guillaume et Timoté, à vrai dire.
Tu peux un peu paralyser, commencer à faire du code.
Mais à trois, t'as pas beaucoup de leviers.
Il vaut mieux avoir une petite équipe de dizaines de personnes
pour aller plus vite.
On a commencé par la data, parce qu'il faut la donner
pour entraîner les modèles.
Donc il y a beaucoup de travail aussi manuel là-dessus à faire.
Et Guillaume, Timoté essentiellement avait commencé pendant qu'on finissait la levée.

Ok.
Est-ce qu'il y a des trucs qui ont été plus durs que tu ne le pensais ?
On parle un peu de la partie levée de fond.
Ça c'est sûr que c'était une époque ou c'était peut-être encore facile.
Mais au-delà de la partie financière,
est-ce qu'il y a des trucs où vous êtes un peu étonnés ?
Des embuts.
Je pense dans les quatre premiers mois, non.
C'est-à-dire que c'est allé exactement comme on l'avait prévu.
Et puis au fur et à mesure, ça devient plus complexe
dès que tu fais du produit,
dès que tu amènes du produit à des entreprises,
dès que tu amènes du produit à des clients,
tu as plein de sujets,
tu te rends compte qu'il faut que tu adaptes le produit,
tu rends compte que le modèle, il devrait se comporter
d'une manière différente sur des cas que je n'avais pas anticipé.
Et donc je dirais que les difficultés vont croissantes.
La complexité de ce qu'on doit gérer va croissante,
d'un point de vue organisationnel,
d'un point de vue produit parce que la surface est plus grande.
Jusqu'à septembre, quand on a démarré,
je dis que c'était très clair,
on savait qu'il fallait faire des petits modèles,
on savait un peu près la performance qu'on pouvait atteindre,
et c'était de la pure exécution là-dessus.
Ensuite, c'était venu un peu plus exploratoire.
On a continué à délivrer,
mais la complexité augmente au fur et à mesure
que l'entreprise grandit.
Surtout que c'est une forme d'entreprise très particulière
où il faut d'abord prouver que tu es au niveau entre guillemets,
et la question d'avoir un produit, un modèle de rotabilité, etc.
En fait, au début, elle est loin tant que tu n'as pas fait tes preuves.
Entre guillemets, ton seul objectif,
j'imagine à ce moment-là, c'est juste de montrer que vous êtes capable.
Oui, parce que là, effectivement, on a démarré comme une entreprise de sciences
et avec les 15 premières recrudes, c'était des scientifiques.
C'est-à-dire des gens qui n'avaient jamais fait de produits, et qui ont pris nous.
Le modèle en lui-même, c'est quasiment un produit,
parce que tu le fais parler, donc ça ressemble à un chatbot au début.
Mais en fait, ce n'est pas du tout l'état stable final
de ce que c'est qu'une intelligence artificielle générative en production
auprès de tout le monde dans 3 ou 4 ans.
Et donc, toutes les questions produits qui se posent sur l'interface top machine,
c'est des questions qu'on a commencé à se poser à partir de décembre,
ou on a mis à disposition des API à l'époque.
Mais oui, ce que c'est assez particulier à ce cycle en logiciel,
c'est que ça commence par une démonstration scientifique.
Et ensuite, la démonstration scientifique, il faut continuer à l'alimenter,
il faut continuer à démontrer qu'on ait une des meilleures équipes du monde en science.
Mais toute la couche produit par-dessus, elle est aussi nécessaire, il faut aussi la faire.
Si il y a un moment, il faut faire rentrer des pépettes.
Exactement.
Et puis surtout, il faut faire...
En fait, c'est presque un sujet scientifique en soi, le produit.
C'est comment tu vas interagir avec les modèles,
quand tu vas interagir avec un ordinateur,
étant donné que tu peux parler à ta machine maintenant et qu'elle comprend ce que tu lui dis.
Donc...
Ça se passe bien, 98 % du temps.
Exactement.
Mais pas tout le temps plus.
Comment tu fais en sorte d'arrêter jusqu'à 100 %,
tu détectes les problèmes,
comment tu utilises le signal sur les problèmes pour améliorer ta performance.
Et donc, toutes ces questions-là, personne n'a la réponse.
Et on fait tous du travail là-dessus.
Au-delà des modèles.
On parle des levées de fonds.
Toi, t'as fait Poil Technique, centraire de Paris, l'UNS et un doctorat.
Est-ce que ça aide quand même à lever des fonds,
alors que vous êtes que trois ?
Ou alors, est-ce que c'est encore plus le nom métal Google ?
Tiens, tu dirais que c'est quoi qui aide le plus ?
Je pense que ce qui a aidé au démarrage,
c'est qu'on était crédibles sur le domaine le plus chaud du moment en 2023
et qu'on avait plutôt des papiers qui t'aillaient à ce domaine-là.
C'est-à-dire que moi, j'étais dans l'équipe qui travaillait à DeepMind là-dessus.
Guillaume Etimotté, ils étaient à Meta.
C'est eux qui ont fait de la main le premier.
Et donc, cette crédibilité-là,
ce n'est pas ce qu'on a fait dans notre jeunesse à l'école.
C'est plutôt une crédibilité scientifique
qu'on a construite dans notre première partie de carrière, on va dire.
Il y a un alignement de planète avec la skintasse le plus
et les meilleurs personnes pour le développer, en fait.
Oui, effectivement, notre crédibilité venait aussi
du fait qu'on avait une excellente équipe de démarche.
Et qu'on pouvait démontrer qu'on saurait la recruter.
C'était combien de personnes l'équipe de démarche ?
C'était 15 jusqu'en septembre et on était 23 jusqu'en décembre 2023.
Donc ça a été un été 2023, on était très occupé.
On est toujours un, mais là on était...
Oui, pas trop de vagans.
Et il y a ce jour qui arrive.
Je pense que beaucoup sont... Je ne sais pas pourquoi,
mais moi je me souviens très bien, par exemple.
C'est le 27 septembre 2023 où vous postez un lien sur votre compte Twitter
parfaitement inactif et c'est votre premier modèle, en fait.
Donc Mistral7b.
Je ne sais pas si c'est... Après coup, il a été renommé, mais...
7B, oui.
Oui, c'est ça, le 7B.
Le tweet est vu plus d'un million de fois.
Vous êtes repris par tous les médias américains,
tout le monde de l'IA et en effervescence et
et s'amuse avec le modèle, il était chargé un million de fois, mais super vite.
Nous, on a vu ça de l'extérieur.
On a vu cet engouement.
Vous, de l'intérieur, ça ressemble à quoi ?
Justement cette journée, est-ce que vous attendiez à un tweet pareil ?
Est-ce que vous saviez que vous aviez autant d'avance sur les autres ?
C'était comment ?
Alors déjà, le tweet, c'était une idée de Guy Oman,
donc le chief scientist pour rendre à César ce qui appartient à César.
Parce que vous ne le publiez pas comme les autres.
On ne le publie pas comme les autres.
Effectivement, on a mis à disposition un magnate link qui permet de télécharger en bit toren.
C'est comme ça qu'on a parlé la première fois et c'était une excellente idée.
C'était une journée où on avait aussi prévu de faire de la communication
plus habituelle.
Donc, moi, j'étais allé parler au journaliste Figaro, etc.
Et donc, il fallait mettre le toren
à 2 de le matin et puis l'embargo était vers 16 heures.
Donc, il y avait cette période où en fait, on n'avait rompu l'embargo.
Mais bon, les journalistes, à priori, ils n'allaient pas comprendre ce qui se passait.
Donc, ça se passait bien.
Et on a vu le truc partir.
Moi, c'est moi qui est posté.
Je crois que c'était à 5 heures du mat'
donc j'avais mis un petit réveil,
parce que je n'étais pas sûr du skate, du le scène, de Twitter.
Ça plait encore Twitter à l'époque.
Et je l'ai mis, je suis allé me recoucher.
Et ensuite, on a vu que ça avait bien démarré au démarrage.
Je crois que c'était 5 heures du mat' effectivement.
Oui, je crois que c'était...
C'est un truc où vous vous attendiez un petit peu ou quand même...
On savait que le modèle était bon.
On savait qu'on était largement au-dessus des meilleurs modèles open source,
qu'on avait visé explicitement cette taille-là,
parce qu'on savait que ça tournait sur des laptops aussi.
Donc, ça voulait dire que tous les hobbyistes allaient pouvoir jouer avec
et ça n'a pas manqué, ça a fonctionné.
Donc, on se doutait qu'on allait être remarqués.
Ce qu'on ne se doutait pas, c'est que les gens allaient le mettre dans des perroquilles en plus,
chez genre de choses, en un mois.
Et donc, ça a été...
La réception était plus grande que ce qu'on espérait.
On était très contents.
Il y a un autre truc qui s'est passé nécessairement,
en publiant des modèles avec des poids ouverts comme ça.
C'est que ça laisse la porte à tout ce qui est entraînement fine tuning.
Et tout le monde s'en est donné à coeur joueur.
Je pense que c'était déjà un peu le cas sur les modèles de Yama.
Mais je me souviens que c'est un modèle qui a été beaucoup, beaucoup réentraîné.
Ce qui n'est pas le cas de tous les modèles, d'ailleurs.
Plus tard, j'ai l'impression qu'on a réalisé que des modèles étaient plus entraînables que d'autres,
qu'on pouvait plus les orienter que d'autres, de ce que j'ai compris.
C'est quoi les fine tuning un peu étonnant ou curieux dont tu te souviens de ce modèle-là ou d'autres ?
Il y a quelqu'un qui s'appelle Technium, qui nous avait entraîné ce modèle pour parler au mort.
Je ne sais plus comment ça s'appelait, mais il avait fait un fine tuning un petit peu...
ésotirique.
Et le truc marchait relativement bien.
Donc c'était assez marrant.
C'est vrai que cette taille-là, c'est aussi une taille où tu peux fine tune-é même sur des gros PC de gaming, éventuellement.
Et puis ça ne coûte pas très cher.
Et le fine tuning, ça permet de rentrer du style, ça permet de faire du roleplay.
Et donc les gens se sont donné à cœur de la, effectivement.
Je pense qu'on continue d'ailleurs.
Il y a toujours une grosse communauté de gens qui fine tune Mistral 7B.
Mais je me souviens que c'était une époque où cette étape-là de post-processing
et permettait même d'aller chercher les derniers pourcents de performance sur les modèles.
Ou alors donner l'impression de le faire.
Oui, tu pouvais avoir fité les benchmarks.
Et donc il y avait un peu une course sur le leaderboard de Huggingface et de ce dessus.
Je pense qu'on m'en est revenu maintenant.
C'est vrai que la plateforme d'évaluation, la manière dont on évaluait les modèles,
elle est un petit peu plus sérieuse aujourd'hui qu'elle ne l'était l'année dernière.
Et la manière dont nous on fine tune nos modèles est aussi beaucoup plus sérieuse
que ce qu'on avait fait sur Mistral 7B en septembre 2023.
On a fait beaucoup beaucoup de progrès là-dessus.
Et c'est important parce que c'est ça qui est l'interface en machine,
finalement c'est le fine tuning qu'on fait par dessus le modèle.
Parce que du coup pour expliquer, il y a le modèle de fondation qui est lui le plus coûteux,
le plus compliqué.
Et j'imagine qu'il contient en gros la donnée en elle-même, l'information.
Et après le fine tuning c'est conversationnel, c'est en faire un bon agent de discussion.
Oui, il faut voir la première phase comme une compression de la connaissance humaine
et la deuxième phase comme une manière d'instruire le modèle à suivre ce qu'on lui demande de faire.
Donc on le rend controllable et une manière de le contrôler c'est de le rendre conversationnel.
Donc ces deux phases-là sont assez distinctes effectivement.
Et est-ce que sur cette deuxième phase il y a des trucs que c'est la deuxième phase
où pour le coup la communauté peut avoir un rôle parce que sinon il faut des centaines de milliers de GPU
ou au moins des milliers.
Est-ce que vous avez appris les trucs d'indépendants tout seul qui ont testé des choses sur du fine tuning
et on découverte des bons, des bonnes techniques ?
Oui on a appris des trucs, je ne vais pas rentrer dans les détails mais il y avait de direct préférer une sub-tivisation.
C'est un peu du jargon mais qu'on n'avait pas fait sur le premier modèle
et on a vu des gens le faire, on s'est dit ça devrait bien marcher sur le deuxième modèle
et ça a bien marché sur le deuxième modèle.
Maintenant on fait d'autres choses mais effectivement une des raisons pour lesquelles on a lancé la boîte
au-delà de l'Europe etc. c'est aussi l'aspect ouvert et l'aspect contribution de la communauté.
En fait les haïes entre 2012-2022 ça s'est construit les uns par-dessus les autres pendant les conférences
les grosses boîtes par-dessus les grosses boîtes.
Puis soudain quand c'est devenu un modèle économique intéressant les gens ont arrêté,
les grosses entreprises ont arrêté.
Et donc on a essayé de prolonger ça un peu avec ce qu'on a fait.
Oui aujourd'hui c'est un très bien, deux camps de distance, c'est assez particulier
d'un côté les anthropiques, les open AI et les compagnies qui ne publient plus grand chose.
Google aussi j'ai l'impression à beaucoup ralentit les publications
et de l'autre côté les Chinois bizarrement.
Pourquoi les Chinois ils sont autant à fond dans les modèles open source, c'est quand même curieux non ?
Je pense que ce sont en position de challenger.
Est-ce que l'open source c'est une bonne stratégie de challenger ?
On en est, je pense que c'est la bonne illustration.
Et ils publient beaucoup, je ne saurais pas tellement répondre à cette question.
Je pense qu'ils ont des bonnes techniques, ils ont des bons enseignements si il y a vraiment ça.
Mais ils ont beaucoup fait avancer la science, les nouvelles techniques,
c'est clairement ceux qui publient le plus effectivement.
Et tu parles de la position de challenger,
est-ce que Meta quand ils publient Yama pour la première fois,
ils sont en position de challenger à ce moment-là ?
C'est les tibetais guillomes, je pense que oui, ils sont en position de challenger,
parce qu'ils n'ont pas encore parlé.
Et je pense que avec le mouvement qu'on a perpétué avec nos modèles en septembre et en décembre en particulier,
donc le Mistral 7B, Mistral 8X7B,
on a lancé cette route l'open source.
Et donc il y a aussi un peu une concurrence sur qui fait les meilleurs modèles open source.
Je pense que ça bénéficie à tout le monde.
Et donc on est ravi d'avoir bien participé à ça.
Ah c'est un souvenir.
La rigolade.
Et qu'est-ce qui fait, tu penses qu'à ce moment-là,
parce que c'est quand même un moment particulier dans le temps,
qu'est-ce qui fait que vous avez autant d'avance, vous ?
Après il y a un yo-yo avec tout le monde qui se produit,
mais là il y a une vraie avance indiscutable.
Je pense qu'on connaissait l'importance de la donnée.
Et on a beaucoup travaillé là-dessus.
On savait aussi comment entraîner le modèle de manière efficace,
parce qu'on avait trois ondes d'expérience chacun dans ce domaine.
Donc il y avait des bonnes connaissances.
Et on a insisté sur les aspects de l'entraînement qui ont le plus de levier,
c'est-à-dire la qualité de la donnée.
Ok.
Effectivement, c'est derrière un peu de tout l'évolution de la recherche.
J'ai l'impression de temps vert.
En fait, il n'y a que la donnée qui compte.
La grosse partie de la donnée et la quantité de calcul.
Mais oui, effectivement.
Mais ça t'avance et folle, parce qu'il faut se rappeler quand même qu'à côté,
Google et Metas sont aussi pas à part de faire ça
si ils avaient compris ces petits détails.
Et c'est tout d'avoir vu ça.
Oui, tu parlais de la qualité de la donnée.
Il y a aussi le compute.
Et c'est lié à un autre sujet très important.
C'est les fonds, tout simplement.
En un an, vous avez en tout levé quand même un milliard d'euros,
ce qui est vertigineux.
On te sent...
Je sais pas ce que c'est un milliard d'euros,
enfin, ce n'est aucun sens.
Vous avez aussi sorti plein de nouveaux modèles,
des pixels, par exemple,
des modèles un peu différents, multimodaux, etc.
Et juste pour comprendre comment vous approchez le fait
que justement en termes de quantité de compute,
par rapport à un Meta,
par exemple qui aura la fin de l'année 350 000H100,
c'est ça, si je dis pas de bêtises.
J'ai pu.
Si c'est si important le compute,
comment justement on gère stratégiquement cette ressource-là
quand on est un peu plus petite boîte.
Est-ce que justement,
il n'y a pas le choix que de passer par des très grosses levées de fonds,
mais après, comment on pérennise le truc,
c'est quand en fait ta vision du compute, comment on se bat ?
Nous, notre vision, c'est qu'on a besoin de compute,
mais on n'a pas besoin de 350 000H100.
Et donc ça a été toujours notre test,
qu'on pouvait être plus efficace,
qu'on pouvait en étant focalisé sur le fait de faire des excellents produits
et ne pas faire plein d'autres choses à côté,
parce que nos concurrents américains,
ils ont tendance à faire beaucoup de choses à côté,
on pouvait être plus efficace et avec moins de compute,
mais quand même du compute très significatif,
faire des choses intéressantes.
Et de la manière dont on l'aloue,
c'est qu'on a des équipes qui sont plus dédiées,
pour améliorer les modèles vers en sorte qu'ils se comportent mieux sur nos produits,
et on a des équipes plus fondamentales
qui vont rajouter des modalités,
qui travaillent un peu plus éloignées du produit,
mais très vite on prend ce qui te produise
et puis on les rapporte vers les interfaces qu'on fournit après.
Et l'allocation de ressources, c'est une question constante chez nous.
Ça peut le nerf de la guerre,
c'est arriver à tenir l'amélioration des modèles dans le temps
versus l'utilisation de cramage du compute.
Il faut gérer le budget,
il faut être intelligent pour ne pas dépenser trop,
et tout est une question de mettre le curseur au bon endroit
et d'avoir les bons compromis.
Donc ce n'est pas facile,
mais je pense que pour le moment on a bien réussi.
On a réussi à avoir des modèles qui sont très performants
avec un niveau de dépense de capital qui est quand même très très contrôlé.
– Ouais.
Est-ce que justement j'ai vu que parmi vos investisseurs
dans les derniers rounds, il y a NVIDIA,
est-ce que ça passe par des acteurs qui, eux,
ont un peu le contrôle sur le hardware
ou l'infrastructure ou les data centers ?
Il y a Microsoft aussi je crois avec qui vous avez bossé.
Est-ce que ça passe aussi par ça,
justement, s'entourer des bonnes personnes ?
– Il faut les bons partenaires et les bons partenaires de distribution en particulier,
parce que le calcul, ça passe souvent par le cloud,
et donc on a comme partenaire tous les fournisseurs de cloud américains,
parce que c'est quand même les plus gros.
On a aussi des fournisseurs français, on a Outscale qui en travaille,
et puis NVIDIA c'est un fournisseur quasiment le cloud aussi,
donc à ce titre on travaille avec eux.
– On a aussi fait de la R&D avec un modèle qui s'appelle Mistral Nemo.
– Oui, mais ça j'ai trouvé assez intéressant que…
Est-ce que c'est le genre de truc où…
Je sais pas ce que tu pourras me dire,
mais c'est ce genre de truc où eux ils ont envie de s'associer sur un projet,
et donc on met leur nom,
ou vraiment sur la conception du modèle,
il y a un cahier des charges ou un truc qui va vraiment être utile pour eux derrière.
Pourquoi ils font ça en fait ?
– Voilà, c'est tout l'intérêt de l'open source,
c'est que tout le monde peut en bénéficier.
Avec des modèles très très performants d'open source,
ça bénéficie à NVIDIA parce que c'est un complémentaire avec ce qu'ils proposent,
ça bénéficie à META parce que c'est un complémentaire avec ce qu'ils proposent,
et donc tout comme en logiciel,
partager des ressources pour créer de l'intelligence et de la propriété intellectuelle
qu'on partage avec tout le monde après.
En fait, ça élève tout le monde en même temps,
et donc c'est comme ça qu'on peut faire ce genre de partenariat.
Il y a un alignement des intérêts sur ce sujet.
– Mais du coup, pourquoi par exemple des gens comme NVIDIA,
ils n'utilisent pas juste nos modèles qui existent ?
– Bien, dans ce partenariat en particulier,
les deux équipes avaient des bonnes idées,
les deux équipes avaient du compuieux différent,
donc ça a été partagé,
et ça a permis de faire quelque chose qui était plus grand que la somme des deux.
– Ok, et effectivement, il était super bien reçu de ce que j'ai vu ce modèle.
– Oui, parce que c'était le meilleur 12B à l'époque,
et c'est probablement d'être encore le cas, je pense.
– Il a une particularité sur le modèle,
ou c'est un modèle 12B ?
– Il est plus gros que le 7 milliards,
et puis il était de manière générale,
il était en trainé de manière plus efficace que ce qu'on avait su faire un an avant.
– Imagine, il y a des gens qui nous écoutent qui n'ont pas suivi,
parce qu'au début c'était possible,
maintenant ça commence à être plus dur,
qui n'ont pas suivi toutes les évolutions des modèles que vous avez sortis notamment,
toutes les versions, toutes les variantes des mixtrales, des pixes,
les pixes trahèles, je sais pas qui fait le naming,
mais il est très très fort.
Quelqu'un qui n'aurait pas suivi, est-ce que tu peux nous expliquer
c'est quoi aujourd'hui la gamme, les modèles qui sont à jour,
et c'est quoi la cible, c'est qui les profils ?
– En fait, le modèle c'est pas le produit final.
Il y a des modèles qui sont gros et qui sont lents,
mais qui sont très intelligents,
et des petits modèles qui sont rapides et un petit peu moins intelligents,
mais qui permettent de traiter de l'information en tâche de fond par exemple.
Donc on a des petits modèles, mixtral small,
et des gros modèles mixtral large.
Et ensuite on a rajouté une modalité, l'image,
et actuellement, c'est deux modèles légèrement différents,
mais ils sont pas très loin d'être similaires.
Nous aujourd'hui, le produit c'est pas le modèle,
le produit c'est la plateforme pour les développeurs,
et donc ils choisissent s'ils veulent aller vite,
et être moins intelligents,
ou aller lentement et plus intelligents essentiellement.
Et puis l'autre produit c'est le chat,
donc c'est une solution plus front-end,
qui permet aux entreprises de gérer leur connaissance,
d'automatiser des choses,
qui permet à tous les utilisateurs, pour les tester aujourd'hui,
d'accéder au web,
de discuter de l'information,
de générer du code, de générer des images,
de créer des documents,
on a un mode où l'interface évolue en fonction d'une intention de l'utilisateur,
donc ça c'est une nouvelle interface aux machines,
et on investit beaucoup là-dessus.
Donc le produit c'est la plateforme pour construire des applications en tant que développeur,
et là-dedans il y a des modèles,
et puis un ensemble d'applications qui permettent de gagner en productivité,
on a aussi une solution pour le code, justement,
avec CodeStral et en convoisant courage à utiliser.
Donc ça c'est pour la partie produit visible,
pour les modèles qui sont open,
parce que je sais que c'est pas forcément le cas de tous, etc.
C'est quoi aujourd'hui l'état de l'art de Mistral entre guillemets ?
Moi j'ai vu que dans les derniers jours récents il y a le large 2.
Oui Mistral large,
alors maintenant on les numérote comme Ubuntu,
donc 24.11.
Ok.
Et donc celui-là Mistral large 24.11,
il est très fort pour appeler des fonctions,
orchestrer des choses,
parce qu'en fait les modèles ça génère du texte,
c'est l'utilisation de base,
mais ce qui est intéressant c'est quand ils génèrent des appels à des outils,
et qu'on les utilise comme des orchestrateurs,
comme un peu des opérating systems.
Et donc on travaille beaucoup
sur le fait d'avoir des modèles
qui puissent être connectés à plein d'outils différents,
qu'elles on peut poser des questions,
qu'elles on peut donner des tâches,
et qui vont réfléchir de même aux outils qui vont appeler.
En fait c'est pas une tâche triviale du tout,
plutôt une tâche de post-training que de pré-training d'ailleurs,
de la deuxième phase,
qu'on a progressivement contrôlé au fur et à mesure de l'année dernière.
Et donc on investisse beaucoup là-dessus,
et donc la nouvelle version de Mistral large,
elle est particulièrement forte à tuer.
Ok, donc après il y a ça,
il y a eu des mixtral aussi,
ça pour comprendre c'est plutôt pour servir
pour une entreprise par exemple, pour servir beaucoup d'utilisateurs en même temps.
C'est un autre type d'architecture
qui est particulièrement pertinent
quand on a une forte charge,
donc beaucoup d'utilisateurs,
donc c'est des choses que nous on utilise par exemple.
Donc c'est mixtral parce qu'en fait
une sorte de cerber à 8 têtes quoi.
C'est ça ouais, c'est plusieurs modèles en même temps,
et chaque mot passe sur le modèle le plus adapté.
Ça permet pour plusieurs raisons,
ça permet de mieux utiliser les GPU.
Et donc après il y a celui-là
qui est un peu particulier pour les gens de lambda,
on va dire,
et derrière il y a les plus petits.
Il y a des petits modèles qui passent sur les laptops,
qui passent sur les smartphones,
et ceux-là ils sont particulièrement adaptés
à des usages de hobbyistes,
parce qu'il n'y a pas besoin d'aller dans le cloud,
on peut le modifier facilement,
et puis ils vont très vite.
On a fait, on s'est aussi pas mal focalisé
sur cet aspect petit et rapide,
parce que c'est vraiment la DNA de l'entreprise.
C'est un milieu qui est super compétitif,
évidemment,
que ce soit on a dit comme sur les modèles,
mais aussi sur tout ce qu'il y a autour,
sur justement comment améliorer l'expérience,
les interfaces de chat, etc.
On a vu les systèmes d'interface
qui se bougent tout le monde,
on est en train d'essayer de trouver
les meilleures solutions à ça, entre PIC, OpenAI,
et vous évidemment.
C'est quoi un peu,
en tant qu'outsider,
votre cible précise à vous
en termes de possibilités d'évolution
quand on a des aussi gros acteurs à côté.
C'est quoi toi tu penses
l'endroit, la direction où vous avez un edge, quoi ?
On a un fort edge
dans le fait de découpler
la question de l'infrastructure,
de l'interface.
Notre solution peut être déployée partout,
donc elle peut être déployée dans le cloud,
mais elle peut être déployée chez les entreprises
qui ne sont pas dans le cloud,
elle peut être déployée sur des laptops.
Donc ça c'est le edge qu'on a construit
au-dessus de l'aspect open source
que ça va assez bien avec.
Faites que les poids
des modèles soient accessibles,
ça rend facile leur déploiement d'un portout.
Donc on a cet aspect de portabilité qui est très important.
C'est notre première différenciation
qu'on a beaucoup utilisé cette année.
Et puis la différenciation qu'on cherche
tout, c'est d'avoir la meilleure interface utilisateur.
En fait il y a plein de sujets qui ne sont pas résolus.
Le fait d'utiliser plein d'outils en même temps,
le fait d'avoir des agents
qui tournent pendant longtemps
et qui prennent le feedback
des utilisateurs.
C'est-à-dire qu'on peut les voir
comme des stagiaires.
Des stagiaires auquel il faut faire du feedback
pour qu'ils deviennent de plus en plus performants.
Et donc on va aller vers ce genre de système
de plus en plus autonome
qui vont avoir besoin de plus en plus de feedback
pour passer de 80% de performance
à 100% de performance.
Tout commence à dire que tu n'es pas constamment derrière lui
à attendre qu'il avance, quoi.
Non, tu lui donnes une tâche, tu regardes ce qu'il a fait,
tu lui dis ce qu'il n'a pas bien fait
et puis ensuite, tu espères que la prochaine fois
il le fasse mieux.
Mais en fait, il faut...
c'est plein de questions scientifiques qui font résoudre pour que ça fonctionne.
Et d'interface.
Et d'interface, oui.
Est-ce qu'on va pas...
Pour l'instant, on fait du chat en mode temps réel
et tout ça. Est-ce qu'à terme, c'est pas du mail.
On va envoyer un mail à notre assistant
et juste il nous ping quand il a fini, quoi.
C'est une des formes...
Je pense que c'est plutôt l'assistant qui t'envoie un mail, en fait.
Un moment donné.
Tu travailles et puis chaque...
toutes les deux heures, il dit, j'ai besoin de tu, etc.
Donc oui, il y a un aspect passé de...
du synchrone à la synchrone
qui est très important et qui pose plein de questions
d'interface.
Parce que, bon, le mail, c'est peut-être pas la meilleure interface.
Il y en a certainement d'autres qui sont plus intelligentes
et qui te permettent la question de...
quelle est l'interface pour donner le feedback,
quelle est l'interface pour sélectionner
ce qui est préférable pour l'humain.
On y travaille.
Je vais me dire...
Je suis persuadé que...
Enfin, je sais pas.
Mais quand on regarde le chat, la discussion,
c'est pas forcément l'interface du tout ultime
pour dialoguer avec un LLM, quoi.
Peut-être qu'il y en a d'autres.
J'imagine qu'il y a plein de choses à inventer.
C'est le mieux à croire qu'on est.
Oui, c'est le mieux.
Ça a beaucoup évolué.
Tu peux chatter avec le chat
et te mettre dans un document.
Tu travailles avec lui sur la construction d'un document.
Tu peux lui demander de chercher des sources.
Tu vois les sources, tu peux retourner.
Tu peux regarder ce que des humains ont écrit
et demander des résumés, par exemple.
Ce que ça permet,
les AIG Nératives, c'est une flexibilité
de liquidité de ta manière d'accéder à la connaissance.
Tu peux regarder
tout un site web.
Tu peux dire qu'on danse moi, ce site web,
en deux phrases.
Tout un document.
Ça permet d'apprendre beaucoup plus vite.
Il reste encore beaucoup de choses
pour que le modèle te permette d'apprendre
et de charger de la connaissance beaucoup plus vite.
Je crois que c'est Versel
qui a fait des mots assez marrantes
de composants web
qui se construisaient
en fonction de la nécessité.
En gros,
tu te poses une question
et il te générait
un composant du AIG
d'interface graphique
à la volée.
La question
c'est une question en backend et en fontaine.
En backend, c'est quel outil appeler
pour aller chercher de l'information
ou pour réactionner des choses.
En fontaine, c'est quelle interface il faut montrer
à l'utilisateur, étant donné son intention actuelle.
Ce que ça veut dire,
c'est que les gros logiciels avec 50 000 boutons
notamment au montage
ça va progressiment disparaître
parce que tu peux identifier
ce que l'utilisateur veut faire.
Son état d'esprit
au moment où il est en train de créer
et adapter les boutons
lui donner exactement ce dont il a besoin.
Ça change complètement la manière
dont les interfaces vont se comporter
dans les années qui viennent.
On n'y a pas encore mais ça fait rêver l'effectif.
On y avance.
Le camp de vase sur le chat
c'est une étape vers ça.
Vers ça, elle a fait des choses intéressantes sur ce sujet.
On parlait de cette interface.
Comment on y accède.
Tu parlais du fait que vous êtes
déployable un peu n'importe où.
Il y a un truc que je constate
en parlant avec les gens autour de moi
c'est qu'on a un peu une génération
d'employés, d'entreprises frustrés actuellement
parce que chez eux ils peuvent utiliser
des trucs incroyables.
Les meilleurs modèles disponibles
ils vont sur OpenAI etc.
Une fois au travail on leur interdit
souvent l'utilisation
des meilleurs outils.
Parfois ils se retrouvent avec des versions
un peu bridées ou des copilotes
ou avec rien du tout.
Ça vient d'où ça ?
Ça vient du fait que
les systèmes d'AI génératifs
ça touche beaucoup au données
et les données de nos entreprises c'est quand même assez important.
C'est là-dessus
que nous on a cherché à trouver des solutions.
Faire en sorte que les données restent
dans l'entreprise, que nous en tant que
fournisseurs d'AI on n'est pas à voir
ces données là.
Ça permet justement d'avoir
le niveau de sécurité, le niveau de gouvernance
dont a besoin sur les données.
Et donc progressivement
on va résoudre ce problème
et nous c'est un des problèmes essentiels
qu'on cherche à résoudre, faire en sorte que
l'IT dans les entreprises soit confortable
pour ramener le chat à tous leurs employés
et qu'ils arrêtent d'être frustrés.
Est-ce que ça c'est un truc qui est très européen
voire français
de côté on va avoir une maîtrise
de la donnée
et dans ce cas là c'est quand même un très gros marché
ou est-ce que
les Américains ils
ont cette même sensibilité par exemple
à dire nous on veut auto-héberger notre truc
sur le data center que ça quitte pas
ou est-ce qu'ils sont dans toute façon
déjà tout qui est sur la chaîne.
Les Américains sont plus dans le cloud, les entreprises
ce qu'elles que soient leur nationalité
elles font très attention à leur donnée
elles veulent surtout pas qu'il y ait de brèches
surtout pas que leur donnée soit compromise
que c'est l'essentiel de leur valeur en fait.
Après les personnes
il y a un peu plus de sensibilité
pour la confidentialité en Europe
que les États-Unis
et mes côtés entreprises c'est la même chose
après les infrastructures qu'on était choisis
aux États-Unis il y a plus de cloud
donc quand nous on travaille avec des entreprises Américaines
on travaille plus dans le cloud
que quand on travaille avec des entreprises européennes
mais les entreprises européennes font de plus
en plus de cloud aussi ils sont de plus en plus à l'aise
donc on s'adapte aussi à ça.
Dans les exemples d'outils que tu donnais
il y a
un truc qui revient
enfin dont on n'a pas explicité
mais qui est en fait super important
c'est la notion d'objectif
d'avoir un mode des modèles qui sont capables
d'effectuer des tâches
et sur la route d'arriver à créer
des étapes
et appeler les bons outils
comme le frais
tu me mentionnes un stagiaire
tu n'as pas nécessairement à lui expliquer
l'ensemble des étapes qu'il doit faire
tu lui dis regarde les vols
les prochains vols pour New York
tu n'as pas besoin de lui expliquer
étape par étape, seconde par seconde
ce qui doit effectuer
aujourd'hui on a des modèles qui peuvent
commencer à appeler des outils
mais qu'on sent un peu limiter
de leur capacité à en utiliser plusieurs
des outils d'affilée notamment
les trucs vraiment utiles, vraiment stylés
comment tu penses que ça va évoluer
est-ce que c'est
une frontière qui peut
être bientôt franchie
est-ce que l'année prochaine on aura résolu ce problème
on pourra faire 20 étapes
avec beaucoup de fiabilité ou est-ce qu'on est encore loin d'y arriver
je pense que c'est la frontière
tout le monde
essaie de la pousser ça va pas se
débloquer d'un coup
parce qu'en fait maîtriser un outil
ça prend du temps à un humain
il faut des demonstrations
il faut du feedback
parce que la première fois il va se tromper
et donc
fondamentalement un modèle ça peut pas
génériquement maîtriser tous les outils
ça va savoir orchestrer
et utiliser plusieurs outils à la fois
mais pour que
le système comprenne ce que l'entreprise
sait faire il y a quand même une notion
de feedback qu'il faut mettre en place
et une notion d'expertise qu'il faut
distiller de l'entreprise vers les systèmes d'AI
ça va pas se faire de manière magique
il faut tous les systèmes en place
il faut les méta-systèmes
c'est à dire qu'il faut que les employés
dans les entreprises soient capables
de fournir du signal supplémentaire
au système d'AI pour qu'il s'améliore
et donc ça va être progressif
mais c'est clairement ce qui
rend les choses intéressantes
en intelligence artificielle
ça change la vie parce que c'est de plus en plus autonome
et donc pousser cette autonomie
c'est le coeur
de notre concentration
et ça va pas être
c'est intense
en données et moi on calcule
et donc de ce point de vue là
c'est plus linéaire
parce que le calcul qui s'est passé
dans les cinq dernières années c'est qu'on a réussi
à battre la loi de morts en mettant plus d'argent
mais là on est de retour
à un régime où la contrainte c'est la donnée
la donnée il faut aller la chercher
qui peut la fournir la donnée c'est les experts
et donc ça va progresser
on va avoir de plus en plus d'outils utilisables
en même temps et des modèles
qui peuvent raisonner de plus en plus
mais ça va être
progressif, ça va prendre des années
et il faut que les entreprises l'adopte
le perçoivent comme ça
c'est à dire que ça sera iteratif
au début ça marchera un peu
et puis ça marchera de mieux en mieux
mais pour que ça marche vraiment très bien
il faut y mettre du sien, il faut investir de maintenant
par exemple pour illustrer ça
on voit que Open AI dans leurs derniers modèles
dans les O1 et compagnie
c'est plus des améliorations significatives
sur le modèle en lui même
mais il tente des trucs de le faire boucler
sur lui même, faire des chaînes de pensée
je sais pas comment dire en français
c'est pas mal
est-ce que, selon toi, c'est un peu un signe
qu'on a atteint
une sorte de plafond
c'est-à-dire que, justement, sur cette évolution exponentielle
on a bien optimisé
par rapport à leur taille
la manière dont marchent les modèles
maintenant, il faut trouver d'autres choses
c'est un paradigme qui est de plus en plus
saturé, je pense qu'il n'est pas encore saturé
ce qu'on appelle le prentrainement
la compression de la connaissance humaine
certaines manières, tu as une connaissance disponible
humaine
qui a une certaine taille, à un moment, tu as fini de la compresser
et c'est là où il faut aller chercher
du signal supplémentaire
et donc du coup
chaînes de pensée
utilisation de plusieurs outils
utilisation de signal expert dans les entreprises
donc
il n'y a pas de saturation du système
on sait comment aller à l'étape suivante
mais sur l'aspect pré-entraînement
oui, on commence à savoir bien le faire
collectivement, tout le monde c'est
à peu près faire la même chose
et donc c'est plus tellement là où est la compétition
la compétition elle est sur les interfaces
et la compétition elle est sur
avoir des modèles qui tournent pendant plus longtemps
salut, si vous appréciez Unorscore
vous pouvez nous aider de ouf
en mettant 5 étoiles sur Apple Podcast
en mettant une idée d'invité que vous aimeriez qu'on reçoive
ça permet de faire remonter Unorscore
telle une fusée
je trouve ça un peu dur de se faire un avitu
justement quand on ne maîtrise pas la stack
scientifique
derrière les transformers
des compagnies
mais j'ai l'impression qu'il y a un peu ce débat entre est-ce que
c'est juste une question de compute
de données
ou qui va repousser cette barrière
d'autonomie
ou est-ce que c'est vraiment un problème
intrinsèque
à la manière dont le modèle est design
et que juste le fait que
ce soit de la prédiction du prochain token
qui peut avoir un petit pourcentage
de partir en cacaouette à chaque fois
ça va rennesser serrément
trop compliqué, trop difficile
la planification long terme
je sais que par exemple il y a des jeux
comme Ian Leckel on en parle souvent
qui sont un peu défenseurs de cette vision là
que les GI ou je sais pas comment l'appelle
elle est cachée
encore derrière
des découvertes scientifiques
c'est quoi ton intuition toi
c'est une bonne question
ce qui est vrai c'est que
travailler sur des architectures
qui induisent des biais de réflexion humaine
c'est souvent utile
ça a été utile pendant les 12 dernières années
de se dire comment nous on réfléchit
essayons d'écrire ça
en mathématiques
et de faire en sorte que les modèles coupient un peu ce qu'on sait faire
ce qu'on observe aussi c'est que
toute l'intelligence qu'on peut mettre
dans les architectures
suffit de mettre deux fois plus de compute et ça disparaît
donc en fait
le paradigme qu'on a suivi
dans les cinq dernières années c'est plutôt de se dire
prenez une architecture extrêmement simple
qui prédit des séquences
et passons là à l'échelle
allons chercher le plus de données possibles
allons chercher les données multimodales
allons chercher de l'audio ce genre de choses
et passons là à l'échelle et voyons ce que ça donne
et en fait ce que ça donne c'est que
manifestement c'est plus intelligent
en termes d'allocation de ressources
c'était en tout cas plus intelligent
en termes d'allocation de ressources de travailler sur la passage à l'échelle
que travailler sur des architectures subtiles
alors est-ce que c'est toujours le cas
maintenant qu'on commence à avoir saturé
la quantité de données qu'on s'est compressé
je pense que la question est ouverte
le sujet c'est plus tellement une question d'architecture
c'est plutôt une question d'orchestration
c'est à dire comment on fait effectivement pour que les modèles
se rappellent eux-mêmes
qui s'interagissent avec des outils
qui durent longtemps
qui fassent du raisonnement
en plusieurs étapes
et ça, ça reste les mêmes modèles
au fond
c'est la brique de base mais le système complet
c'est pas juste le modèle
c'est le modèle qui s'est rappelé lui-même
qui s'est réfléchir, qui s'est interagir
avec tout son environnement, qui s'est interagir avec les humains
donc c'est la complexité des systèmes
elle devient beaucoup plus grande que juste
un simple modèle de générations de séquences
ça reste le moteur
mais c'est pas du tout toute la voiture
mais donc, t'es plutôt optimiste sur le fait que ce soit le bon moteur
c'est le bon moteur
après ce qu'on...
il y a une règle en machine learning qui dit
essentiellement
augmenter la capacité de calcul
ça augmente la qualité des...
des systèmes
et t'as deux solutions pour le faire soit tu compresses de la donnée
soit tu fais de la recherche
d'ailleurs tu vas échantillonner
tu vas demander au modèle de tester mille trucs
et de sélectionner
l'échantillon qui marche le mieux
et tu vas renforcer la tue
et donc là on commence de plus en plus
à basculer dans le mode search
dans le mode recherche plutôt que dans le mode compression
la personne qui a dit ça c'est Richard Sutton
dans un...
Blockpost que vous avez dit à l'Ir
qui s'appelle The Beaterlesson
donc c'est... on a beaucoup compressé
et maintenant on recherche le plus en plus sur
est-ce que toi y a une des mots
un peu de bout en bout
d'un truc qui a...
même si parfois ça marche pas etc
mais d'un truc qui a été impressionné
ou ça a vraiment très bien marché
d'une suite d'étapes tu vois un truc qui t'a fait un peu sentir
comme Iron Man
avec Jarvis
ouais avec le char on a connecté
les API ouvertes de Spotify
et donc tu peux lui parler, lui demander le playlist
et décrire ta playlist
puis ça te crée ta playlist et ça te...
et ça la joue pour toi
donc fait des choses intéressantes
alors c'est juste un seul outil ça
non là où on a vu des choses très intéressantes
c'est une fois qu'on a connecté le web
ça te permet d'avoir toutes les informations en live
et très vite tu peux te créer tes mémo
pour savoir qu'est-ce qu'il faut aller dire à tel client
en fonction des informations qu'il a eu
et donc la combinaison des outils
ensemble ça fait émerger
des cas d'usage que t'avais pas forcément prévu
c'est à connecter le web, si tu connectes ton mail
je peux faire plein de choses en même temps
et si tu connectes ta connaissance interne
et le web
tu peux combiner plein de choses
tu peux combiner ces informations de manière un peu imprévisible
et donc la quantité de cas d'usage
que tu couvres est à peu près assez
exponentielle au nombre d'outils
et donc ça c'est assez magique
moi effectivement je trouve qu'il y a un côté un peu vertigéneau
tu te dis on va pouvoir
construire des trucs de fou
mais du coup ça fait que c'est un peu dur
de s'imaginer de se dire
bah voilà dans le futur les outils qu'on aura
ils vont pouvoir faire ça
je suis sûr qu'il y a plein de cas d'usage
mais je trouve ça un peu difficile
de s'imaginer des scénarios complets
justement de
ça va ressembler à quoi concrètement
genre le métier de développeur
de quelqu'un qui doit faire des scénarios
de LLM justement, ça ressemble à quoi
je dirais que
de plus en fin c'est un outil
qui augmente le niveau d'abstraction requit par les humains
donc en tant que développeur
et tu vas continuer à réfléchir au problème
que tu cherches à résoudre pour tes utilisateurs
tu vas continuer à réfléchir aux architectures au niveau
qui remplissent
tes contraintes
ton quai et des charges
après est-ce que tu vas continuer
à coder tes applications en JavaScript
ben semblablement non parce que les modèles
ils arrivent bien à générer
des applications simples
et des applications plus en plus compliquées
donc tous les sujets très abstraits
qui vont nécessiter de la communication avec des humains
le métier d'ingénieur c'est aussi un métier de communication
vous aussi comprendre quelles sont les contraintes de chacun
ça ça va pas être facilement remplaçable
mais en vanche
tout l'aspect
je t'aide à faire tes tests unitaires
je te fais ton application pixel perfect
à partir d'un design
ça je pense que ça devait
devenir de plus en plus automatisable
pour juste coller
au développeur mais c'est le cas pour tous les métiers
c'est
est-ce qu'on a une intuition de comment ça se fait
que les modèles ils sont aussi sensibles
au code
on pourrait se dire
par exemple je viens un modèle qui est super fort en français en anglais
pour qu'il sache le piton
et le JavaScript à priori
ça n'est pas utile
or c'est pas du tout ce qu'on observe
c'est une très bonne question
et c'est vrai qu'on observe un genre de transfert
c'est à dire qu'entraîner son modèle sur beaucoup de codes
ça lui permet de raisonner mieux
et je suis pas le mieux placé pour en parler
il faudrait que ça se fasse pas plutôt guillaume
mais la réalité
c'est que
en fait quand tu lis du code
le code
ça a plus d'informations que le langage
il y a plus de réflexions qui est passées
dans le langage c'est plus structuré
et donc s'entraîner à générer du code
ça force le modèle à raisonner
à plus haut niveau
que l'entraîner à générer du texte
et donc
il s'est raisonné sur du code
et donc quand il voit du texte c'est aussi raisonné sur du texte
et c'est vrai qu'il y a ce
transfert un peu magique
qui est je pense une des raisons pour lesquelles les modèles sont devenus largement
meilleurs dans les deux dernières années
ça sert aussi parce que
en fait
t'as beaucoup plus de code base
qui sont plus longs qu'un livre
comprendre une code base c'est plus long que lire un livre
et donc un peu le maximum sur lequel
tu peux t'entraîner
pour faire un modèle qui comprend le contexte long
c'est
des livres du XIXe siècle
et le maximum sur lequel tu peux t'entraîner
pour faire du code c'est
des millions de lignes
c'est des millions de lignes
de projets open source
et donc c'est plus long
et ton modèle il peut raisonner plus longtemps
je pense que c'est une des intuitions
tu l'as dit il y a un truc qui est hyper important
c'est avoir ces données la qualitative
en nombre
aujourd'hui
il y a des dataset avec littéralement tout internet
qui sont bien propres
qui sont trouvables sur gingface facilement etc
c'est quoi toi
peut-être pas de nous dire toutes tes recettes
mais c'est quoi
de ton point de vue
des mines peut-être encore pas beaucoup explorées
des trucs
à aller chercher en termes de données
de qualité
qui vont permettre d'encore
à l'étape d'après
je pense que tout le domaine public
en particulier dans les livres
n'est pas très très bien numérisé
dans tous les pays
enfin même dans aucun pays en réalité
mais je pense que c'est très important
pour que chacun des pays se dise
en fait la connaissance humaine
elle est en train d'être compressée
et en tant que pays en tant que langue
j'ai envie que ma langue elle soit comprise
et bien parlée par le modèle
et donc nous on sait fait longtemps qu'on appelle
à une prise de conscience
dans les pouvoirs publics et je pense qu'il commence
à nous entendre
qu'un des efforts qu'une bibliothèque
nationale doit faire c'est mettre à disposition
le patrimoine culturel
d'un pays et faire en sorte
que ce patrimoine culturel il soit bien compris
par les systèmes d'intelligence artificielle
il y a vraiment un sujet culturel en fait
parce que les modèles
à la fois ils résonnent et puis savent des choses
et puis la connaissance qu'ils ont
c'est la connaissance de la culture parce qu'ils lisent
essentiellement ils lisent que des humains
ont écrit et il faut pas
si ils leur manquent des pans de la culture
ils vont pas être capables de le gérer
ils vont mal parler de l'engraire
si il n'y a pas un travail explicite
d'aller chercher ces langues rares
et de les ramener dans le jeu de données d'entraînement
et donc
un des sujets c'est qu'il y a trop d'anglais
les modèles sont super forts en anglais
ils sont subtils dans leur connaissance de la langue etc
en français tu arrives à être très bon
mais dès que tu es sur des langues un peu plus rares
où il y a moins de corpus
en roumain en arabe même
c'est plus difficile
et donc je pense que c'est important
que tous les pouvoirs publics se rendent compte
que ramener du contenu
dans le domaine public
c'est crucial pour
la permanence culturelle du pays
donc ça c'est la partie de
numérisation on sait aussi que
moi j'avais pas vraiment pensé mais j'avais pas réalisé
ça va te parler très évident mais que la
vidéo a été très importante pour construire
des gros corpus, parce que les youtube
ce qui fait que maintenant ils sont super flippés
et je sais que parce que nous on
développe pas mal de trucs autour de ça
les api, privés de youtube
ils sont du coup complètement parano avec les bots etc
je pense que comme beaucoup de plateformes
comme reddit, x et compagnie
ils sont maintenant
super précautionneux
sur qui accèdent à leur vidéo
à leur donner, juste parce qu'on sait
que ça a été entraîné dans les whisper
dans les modèles
d'openai entre autres
est-ce qu'il y a des
comme ça des hacks qui sont encore trouvables
pour avoir de la grosse
donnée de qualité en quantité
ou est-ce que c'est bon tout a été fait là ?
parce que tout le monde y a quand même assez bien réfléchi
effectivement il y a certaines entreprises
qui utilisent leur position dominante
pour avoir plus de données que les autres
alors bon, on peut se questionner
l'aspect anticoncurencial de l'affaire mais
surtout que c'est impossible, enfin le modèle
une fois que les poids sont publiés
c'est compliqué de savoir qu'est-ce qui est dans le jeu
d'entraînement exactement ?
c'est de la compression effectivement donc ça disparaît
le... non c'est un vrai sujet
le fait que
des entreprises qui font
2 ou 3
3 trilliards de market cap
et plus de données et puissent entraîner des modèles
que les autres arrivent pas à entraîner parce que
sur un autre bout de la chaîne de valeur
elles sont en position complètement dominante
c'est un vrai sujet de concurrence et les autorités
d'anticoncurance comment ça s'y aille réfléchir
donc je pense que c'est une bonne chose
je pense que pour le bénéfice de l'humanité
l'ouverture de tous ces 6 l'autres données
est importante
nous on promet l'open source parce qu'on pense que c'est la bonne manière
de faire en sorte que tout le monde ait accès
de manière égalitaire à une technologie de qualité
et donc
si chacun public ou privé
pouvait apporter sa donnée et la mettre
à disposition
quand je parle de données c'est pas les données personnelles c'est le contenu
c'est tout le contenu culturel en fait
si on arrive à consolider un contenu culturel
qu'on compresse ensemble
faire les meilleurs modèles open source
en réalité le monde entier en bénéficiera
et donc nous on a toujours été promoteurs de ça
et on
on est ravis de travailler avec
des partenaires qui ont ça
aussi en tête
je te propose de parler maintenant un petit peu
de talents
et des gens qui font que justement
vous faites ce que vous faites
déjà pourquoi est-ce que vous avez décidé
à la base de mettre Mistral à Paris
aujourd'hui ça peut
paraître un peu plus évident entre guillemets
on sait que l'écosystème est super vivant
je vais en parler
mais est-ce que c'est une décision
à cette époque là
une décision évidente entre
ce met-là ou à San Francisco
même avec une boîte française
mais juste pour avoir les meilleurs personnes
c'était évident tout de suite que c'était Paris
on ne s'est même pas posé la question en réalité
moi j'avais aucune envie de
partir de Paris, ma compagne est fonctionnaire
donc elle a quelques contraintes
Tim Hôté
il avait aucune envie de partir de France aussi
et Guillaume non plus
donc je pense que en réalité si je réfléchis
on ne s'est jamais posé la question
on savait aussi que les gens
dans nos trésors en fait c'est des Parisiens
des Parisiens, des gens à Londres aussi
et ces personnes qu'on pouvait recouter
c'était des gens locaux
donc c'était une évidence
de démarrer à Paris
comment se fait ça
que Paris en particulièrement
se fourmille autant de bons ingés
et scientifiques ? je pense parce qu'il y a un écosystème
en machine learning
il y a un écosystème avec Lineria
avec l'académique d'un côté
et puis les laboratoires privés qu'il y a
de n'importe qui a contribué à créer
un laboratoire fair
historiquement qui avait été créé en
2015 je pense
DeepMind
qui en réaction s'était installé là-bas
et qui avait un énorme centre
de compétences à Londres grâce à DeepMind
et donc en fait ce qui fait
les talents
dans la texte c'est le fait que t'es une entreprise
qui soit déjà passée par là avant, qui a grossi
et qui étaient des gens qui ont appris
dans cette entreprise là, qui ensuite t'es sème
et donc ça on l'a vu plein de fois
l'avantage qu'on a c'est que nous on passe un peu
en deuxième rideau c'est à dire qu'on a eu
à partir de 2015
des laboratoires
très performants
en France
et depuis 2010 à Londres
et donc on a bénéficié de ça, on a bénéficié
des entrepreneurs
qui voulaient bien nous rejoindre
et qui se sont formés là-bas
donc
très bon ecosystem privé
et très bon ecosystem public aussi
parce qu'il y a beaucoup de nos
chercheurs qui ont fait des tests
dans l'académie qu'en France aussi
et le résultat est assez dingue
parce que dans les
rien que les conventions d'IA les trucs, j'ai vu
Olyama par exemple qui a organisé
un meetup entre comme ça
et ça paraît dingue, enfin tu vois les images
on se dit pas que ça apparaît
et en fait non
ça bouge de fou
il y a plein de gens
dans ce domaine en particulier
qui sont des français, Yann Lequin est un français
mais en dessous des gens plus jeunes
que lui, il y a beaucoup de gens
qui ont fait
si à l'homme par exemple
oui par exemple
à Métain Paris aussi des gens très forts
à DeepMind Paris
j'ai plein d'amis
j'ai plein d'amis, je pense qu'on a débauché les gens qu'on pouvait
j'ai plein d'amis qui sont français
qui sont encore là bas
ils finiront peut-être par créer leur boîte
mais
de manière générale
l'Europe et la France en particulier
a les bonnes compétences
il y a les bonnes écoles
il faut être fort en maths et fort en informatique
pour faire scientifique
en intelligence artificielle
et de fait on a les bons tuyaux de formation
je pense que d'ailleurs c'est important
que l'éducation nationale
prenne conscience que
défendre les maths c'est aussi une manière
de défendre l'intelligence artificielle non dix ans
parce que les gens qui sortent de leur formation
c'est...
pour faire de l'intelligence artificielle il faut être fort en maths
en réalité il n'y a pas tellement d'autres solutions
donc c'est important de continuer à faire ça
c'est important de le faire en
les réformes
qui ont été faites par le premier gouvernement
2017-2022
on réduit le nombre de femmes
au lycée qui font des maths
je pense que c'est assez catastrophique
j'espère que les réformes qui ont été reprises
et que la direction qu'on prend va courir
ce problème
t'as mentionné tout à l'heure le
faire, il y a aussi
à Paris, Huggingface, est-ce que vous faites un peu la guerre ?
non ils sont pas exacts
mais c'est intéressant le Huggingface parce que c'était français
mais quelques années avant vous
ils ont choisi eux d'un...
en vrai ils sont partout dans le monde, ils sont très
téléphabriques mais ils sont installés aux états unis
Huggingface, mais oui ils sont à Paris évidemment
est-ce que vous faites un peu la guerre de talent ?
maintenant on sait que vous avez
cette compétition sur les talents
mais de manière plus générale après
c'est quoi les arguments
justement qui font
que tu vas avoir les bons talents
quoi ?
je pense qu'on ne fait pas la même chose avec Huggingface
de manière générale ils sont plus centrés sur une plateforme
qui met à disposition tous les modèles open source
nous on a plus de concentration
sur le fait de faire des modèles
qui font soin très bien sur des produits
développeurs et sur des produits
de productivité
donc de ce point de vue là
on n'attire pas les mêmes personnes
donc on est rarement en compétition
directe
sur des recrutements
alors ça n'empêche pas des gens
quelques anciens de Huggingface qui sont venus chez nous
parce que vous voulez faire plus de science
mais c'est une entreprise
plus ancienne qui a formé
des gens et donc c'est le jeu
des écosystèmes c'est à dire que c'est important
que Huggingface ait existé
avant nous pour qu'on ait pu recruter
des excellents
ingénieurs qui nous ont rejoint dès le début
de l'aventuré
et c'est quoi les arguments aujourd'hui ? moi je suis
je viens de sortir de ma thèse en ML
qu'est ce qui fait
d'après toi que je vais plutôt décider
d'avenir chez Mistral versus
chez Meta ou chez DeepMind
en sortant de master
en sortant de master à Paris je pense qu'on est
de loin le meilleur centre de formation
pour faire
le cœur de la science
en intelligence artificielle
il n'y a pas de structure équivalente même en Europe
sur ce qu'on fait
parce que je pense qu'on a réussi
à concentrer
il y a 50-60 scientifiques chez nous
qui sont tous extrêmement
bien formés et donc
en sortant de master je pense que c'est le meilleur
endroit parce que en 6 mois
ils sont formés, enfin c'est le meilleur
endroit pour les masters
c'est aussi un excellent endroit pour nous
parce qu'on va récupérer des gens juniors
on a une bonne marque
avec eux, on leur propose
une excellente formation, ils nous rejoignent
et en fait ils sont très très performants en boutime moi
ils ont plein d'idées, ils sont
extrêmement créatifs, ils ont 23 ans, ils ont
toute l'énergie qu'il faut et donc on les
utilise, on doit beaucoup de ce qu'on a
proposé à des gens qui sont très jeunes
et donc on encourage
tous les gens en master à venir nous rejoindre
on a plein de place et on adore
on adore les former
trop cool et moi j'ai appris tout à l'heure
d'ailleurs que après notre émission
qu'on avait fait sur Mistral et il y a
une recrut, merci
effectivement
vous nous avez envoyé des recruts
peut-être qu'il y en aura encore d'autres
tu te souviens, tu sais pas quel genre de profil
si si c'est un ingénieur
c'est pas un scientifique, c'est un ava
c'est tout bien, on n'a pas revoit
parfait
c'est bien cool, tu disais
que vous recrutez toujours donc voilà n'hésitez pas à aller voir ça
tu concernerais quoi toi
à des gens qui sont peut-être moins
avancés ou qui réfléchissent
à ce qu'ils veulent faire, qui voient bien
qu'il y a quelque chose qui se passe dans l'IA
est-ce que d'après toi c'est un peu
trop tard entre guillemets dans le sens où
ça va être un écosystème
très saturé et donc
il n'y a pas de magie
ou est-ce que
tu penses que c'est encore possible et qu'est-ce que tu
conseillerais comme choix
d'études, de trucs à l'explorer
est-ce qu'il faut faire des modèles de langage comme tout le monde
est-ce que justement il faut essayer de sortir
un petit peu de la bulle
c'est quoi ton conseil ?
je pense qu'il faut réfléchir au système qu'on crée avec
nous on crée des systèmes de gestion de la
connaissance mais il y a plein de systèmes verticalisés
dans les sciences de la vie
dans je sais pas l'architecture
dans la conception par ordinateur
qui
ne demande qu'à être pris avec
des nouveaux systèmes, le montage vidéo aussi
et donc
se dire que la technologie
elle va continuer à avancer, les technologies
elles vont être de plus en plus performantes
ça ouvre de nouvelles opportunités
d'automatisation
et donc de nouvelles opportunités
de nouvelles opportunités de création de logiciels
intéressants, de création de services
complètement différents pour les utilisateurs
et donc partir des besoins utilisateurs
partir un peu du rêve
de logiciels de demain
la machine auquel on va parler
et qui va faire tout ce qu'on veut à sa place
ça permet
je pense que c'est un bon point de départ
on choisit sa verticale
et puis on se dit est ce que les modèles
aujourd'hui peuvent résoudre ce problème
s'ils peuvent pas résoudre ce problème peut-être qu'il faut les personnaliser
peut-être qu'il faut aller un petit peu plus profondément
et là dessus on peut aider
à le faire, on a tous les outils
qui permettent de faire les personnalisations verticalisées
donc il faut toujours partir
du besoin client et de l'envie
on a vu des parallèles
des innovations
qui s'étaient assez imprédictives
je trouve
qui n'ont pas forcément de rapport directement avec le texte
mais qui sont considérés quand même
comme de la diagénérative
dans des secteurs hyper différents effectivement
de la médecine
nous on a reçu
avec Microsoft
parler des conséquences
que ça avait dans la recherche de matériaux par exemple
et tu peux te dire mais c'est quoi le faire
à la base on parle
de modèles qui génèrent
des images du texte etc
et en fait on découvre des...
grâce à ça entre autres on découvre des matériaux
est-ce qu'il y a des trucs comme ça soit dans vos partenaires actuels
ou dans les trucs que toi t'as vu
qui t'ont aussi frappé ?
la découverte de matériaux c'est les mêmes techniques
c'est pas les mêmes modèles
parce qu'en fait ce qu'on fait c'est qu'on séquence
de manière générale il y a plein de problèmes qui se résolvent
en séquençant, en sérialisent
de manière générale le problème
et la découverte de matériaux c'est de la chimie
donc on peut s'est réalisé les molécules chimiques
et demander aux modèles de les prédire
nous on travaille
avec... on travaille avec les départements
de la R&D de plusieurs entreprises
ce qu'on fournit c'est plutôt la solution horizontal
pour accéder à la connaissance
la combiner et puis
aider les chercheurs à avoir des bonnes idées
ça c'est l'aspect horizontal
juste le texte
la bibliographie
et l'écriture c'est une partie
intégrante du travail du scientifique
c'est une partie qui peut être largement accélérée
et rendu beaucoup plus efficace
non pas pour y passer moins de temps
mais pour juste apprendre beaucoup plus de choses en même temps
avec de l'éage génératif
donc nous on travaille plutôt là dessus
après le paradigme
je prédis des séquences et j'ai plein de séquences
sous la main de données particulières
ils marchent en chimie
ils marchent en médecine
ils marchent certainement en sciences de la vie aussi
donc
on travaille pas là dessus mais on est ravis
de travailler, d'être partenaire
avec des startups qui font ça
et là où peut-être comme tu dis
on arrive à une fin d'exponentiel
et éventuellement sur le texte
il y a peut-être plein d'autres domaines
où le transfert
fait que comment c'est quoi ?
sur le texte on n'est pas
du tout à saturation en fait
parce que la prochaine étape c'est d'avoir
des modèles qui appellent plein d'outils
donc du coup ils deviennent
beaucoup plus intelligents que juste des générateurs
de texte et
un des outils qu'ils peuvent appeler c'est des simulateurs
donc la boucle
de travail du
concepteur de turbines
de la personne qui travaille sur un nouveau médicament
elle va complètement changer dans les années qui viennent
et ça vient de, à la fois des modèles spécialisés
de prédictions de molécules par exemple
mais ça vient aussi de l'interface avec la connaissance
qu'on est en train de recréer
donc tu vas pouvoir parler avec ton ordinateur
et dire est-ce que tu peux me simuler
une turbine qui ressemble à celle-là mais un peu plus grande
et fais-moi plusieurs essais
et dis-moi la celle qui marcherait la mieux
et donc la manière d'itérer
l'ingénierie finalement ça va aussi beaucoup changer
de nature dans les années qui viennent
c'est hyper intéressant parce que effectivement
les trucs auxquels on pense rapidement c'est
tu parles de simulateurs bah il y a le simulateur de code tout simplement
ça c'est les trucs qui se font un peu déjà c'est le plus facile à simuler
parce que ça reste au sein de la machine
ça n'est pas le monde extérieur
et donc on voit déjà un peu le
une soundbox par exemple qui peut exécuter un bout de code
et on voit si ça marche ou si ça marche pas
ça c'est le truc qui le dit
le raisonnement est le fait d'avoir un modèle qui génère du code
qui est ensuite exécuté on y travaille pour très prochainement
et donc
c'est
une grosse porte d'entrée vers des cas d'usage
complexe
et ouais
tu peux faire plein de choses parce qu'en fait
tu as
un espace ouvert d'outils à appeler maintenant
parce que tes outils c'était librairie
et donc
la complexité
le niveau de contrôle aussi que tu dois mettre
sur les modèles
ça devient plus compliqué à évaluer
parce que c'est plus ouvert, plus le monde est ouvert
plus c'est difficile à évaluer
mais clairement on va vers ça
un modèle avec un exécuteur
de code c'est beaucoup plus performant qu'un modèle
sans exécuteur de code
c'est quoi toi ton avis justement
dès qu'on commence à parler d'outils et d'exécuter
des trucs du code
moi j'entends tout de suite des d'autres profils
dans l'écosystème de LIA qui sont
pas forcément des grands pessimistes
mais qui sont dans la frange
très
un peu alarmistes de comment pour évoluer
les liens
et des possibilités
que Nia devienne rogue
et prennent son indépendance, tu parles d'exécuter du code
en l'imagines sortir de la boîte
je dis ça en rigolant mais en vrai il y a des gens
qui étudient très sérieusement
ces évolutions futures des modèles
qui arriveraient justement à planifier et qui auraient
les outils pour avoir des conséquences néfastes
sur le monde. C'est quoi toi ton avis
là dessus ? Est-ce que pour être caricatural
c'est un peu un moyen
de mettre en place des régulations
pour canasser tout ça
ou est-ce qu'il y a vraiment
des questions à se poser ?
Il y a des questions à se poser
sur comment on fait du nouveau logiciel
avec des systèmes et des modèles
qui sont fondamentalement imprévisibles
c'est à dire que par essence
ce qu'il génère c'est aléatoire
ça dépend de l'entrée
tu peux pas en tant qu'humain prédire
ce que le modèle va sortir. Tu veux quand même
faire du logiciel avec.
Un logiciel par essence avant de le mettre
à disposition du marché tu veux vérifier qu'il couvre
tous tes cas et qu'il n'y a pas de bug
et donc la question de faire en sorte que ton
système qui est repos sur des LLM
et pas de bug c'est une question difficile
c'est une question de contrôle, c'est une question
d'évaluation et finalement pour nous
la question de sûreté en anglais c'est
d'abord une question de dévaluation
c'est d'abord une question d'avoir les bons outils
pour vérifier que ça fonctionne
et si ça fonctionne pas avoir les bons outils
pour corriger ça.
Une des outils qu'on met à disposition
et qui est utile pour ça c'est
si tu veux contraindre l'espace des possibles
de ton modèle et de ton système
tu contrains l'espace des entrées
donc tu mets une modération sur le type
de question que l'utilisateur peut poser
et comme ça soudain tu passes de
un système qui peut répondre à toutes les questions
un système qui peut répondre que aux questions
qui sont intéressantes pour le logiciel que tu crées
et donc pour nous on voit vraiment
l'aspect sûreté au niveau du
système lui-même et comme un problème
d'intégration continue, comme un problème de test
comme un problème de
enfin il faut répondre à la question
comment on construit des logiciels déterministes
qui tournent sur des systèmes
fondamentalement stochastiques.
Ça c'est la première chose. Ensuite
oui il y a de la science fiction
et puis
tu as quelques entreprises aux Etats-Unis qui ont un intérêt
à dire au régulateur
écoutez cette technologie elle est quand même
un peu trop compliquée, un peu trop difficile
à comprendre, un petit peu trop dangereuse
imaginer que le truc
devienne indépendant
et bon tu vas dire ça à des gens qui ne comprennent pas
forcément exactement ce qui se passe, peut-être se dire
ah oui peut-être que si on donnait ça
à trois personnes
ou à deux personnes
aux Etats-Unis on contrôlerait tout ce qui se passe
et puis il n'y a pas de problème. Mais nous on pense que c'est faux
c'est à dire que
et puis c'est fondamentalement anti-démocratique c'est à dire que
avoir deux entités
ou encore pire une entité
qui contrôle tous les systèmes
et qui ouvrent sa porte
à des auditeurs auquel ils montent ce qu'ils veulent
on pense que c'est pas la bonne solution
la bonne solution en sûreté logiciel
c'est l'open source de manière générale
on l'a montré en cyber, on l'a montré
sur les systèmes les plus fiables aujourd'hui
des opérations des systèmes les plus fiables c'est Linux
tout ça le fait d'avoir le plus
d'yeux possible sur une technologie
le fait de la distribuer le plus possible
c'est une manière de faire en sorte que le contrôle
de cette technologie qui va changer
toute la manière dont la société fonctionne
soit sous un contrôle démocratique
et donc voilà c'est ce qu'on dit
et puis quand on entend
les doumeurs raconter autre chose
c'est souvent qu'il y a des arrières pensées
alors il y a des gens qui sont de bonne foi
il faut leur connaître qu'ils ont vraiment peur
que ce soit des choses qui vont se passer
alors ils ont peut-être des raisons en général
c'est un petit peu tiré par les cheveux
et puis il y a surtout beaucoup de gens qui ne sont pas du tout
de bonne foi et donc je pense qu'il est
important de vérifier
d'où ils viennent quand ça y parle
ça doit pas être simple parce qu'en face l'argument
il est super facile à comprendre justement quand tu es
pour quelqu'un qui n'est pas forcément
adeptes du sujet on te dit
voilà un outil dangereux est-ce que
il faudrait pas éviter qu'on le mette dans trop de mains
la position
open source versus doumeurs
tu pars déjà
tu pars déjà avec un truc
un peu dur à défendre
on a tout historique
c'est-à-dire que c'est pas la première fois qu'on a ce débat
on a eu ce débat pour l'internet
internet ça aurait pu être un truc contrôlé par
trois entreprises qui auraient fait leurs propres nets
qui auraient refusé de standardiser les choses
et en fait finalement
il y a eu suffisamment de pression
et à un moment donné le régulateur s'est dit
on va faire en source la soit standardisée
et donc internet ça appartient à tout le monde maintenant
tous les protocoles sont ouverts
ça aurait pu être très différent
il aurait suffi que des personnes différentes
fassent des choix différents
quelques personnes et on serait dans une situation
où
en fait il y a 3 wallgarden
non interopérables
ça aurait pu être la même chose pour
le end to end encryption
c'est un autre exemple
à une époque c'était considéré comme une arme
et c'était sous un contrôle des exports
des Etats-Unis
et sauf que en fait
on se pose la question maintenant
sur les poids
parfois certains régulateurs se posent cette question
mais ça paraît fou
pour le end to end encryption
nous se compensons dans 10 ans ça paraît complètement fou
pour des poids d'un modèle
parce que c'est tellement infrastructuriel
c'est tellement une ressource qui doit être partagée par tout le monde
cette compression de la connaissance
et cette intelligence que c'est criminel
de la laisser entre les mains
de deux entités
qui ne sont pas du tout sous contrôle démocratique
et pour donc défendre cette vision là
que du coup le contrôle doit avoir lieu un peu plus tard
dans la chaîne en fait au moment de l'interface
par exemple ou par l'entreprise
vis-à-vis de son client
tu vois notamment au Sénat
on t'a vu
on t'a vu sur YouTube parler au Sénat
ça fait quoi de parler ? d'essayer d'expliquer
ce que c'est un modèle en data set à LLM
à des sénateurs
c'est intéressant
il y avait des bonnes questions
il y avait des questions
peut-être
posées par des gens qui comprenaient un peu moins la technologie
on va dire
mais ça dure
ça dure deux heures
et en plus on a pas l'impression que c'est filmé
et donc il y a BFM qui regarde etc
tu savais pas que c'était
si je savais mais en fait tu l'oublies
parce que tu es quand même dans une salle en bois
ça ressemble pas à un studio de Steve
c'est vraiment clair
donc tu l'oublies
alors je pense que je n'ai pas dit trop de bêtises
mais je pense que c'est important
de manière générale
c'est des représentants des citoyens
et il faut qu'ils comprennent que c'est une technologie
qui va affecter les citoyens
donc nous on est prêt à y investir du temps
parce que mieux c'est compris
plus on comprend que c'est aussi un enjeu de souveraineté
c'est aussi un enjeu culturel
c'est un enjeu d'avoir des acteurs comme nous
et pas que nous mais des acteurs comme nous sur le seul européen
parce que si c'est pas le cas
en fait le sujet c'est qu'on a une dépendance
économique énorme aux Etats-Unis
et ça elle est très très dommageable à long terme
et donc le fait d'aller parler aux gens qui font les lois
aux gens qui derrière vont aussi parler avec leurs citoyens
qu'on prenne leurs angoisses etc
c'est une manière
de dédramatiser cette technologie
c'est une technologie qui va apporter
beaucoup de bénéfices dans l'éducation, dans la santé
dans la manière dont on travaille
et il faut que les représentants
de la démocratie française
de la démocratie européenne, de la démocratie américaine
et conscience de savent de quoi il s'agit
et qu'on ne maille pas
ce qu'on fasse le problème c'est qu'il y a aussi des concurrents
qui vont leur raconter n'importe quoi
donc du coup c'est important de parler
on avait pas tellement, moi je dois dire que personnellement
j'avais pas tellement prévu de faire ça en démarrant la boîte
mais il faut faire en temps de savoir
parce que sinon le vide est comblé
par des gens qui n'ont pas forcément des intérêts
alignés avec la démocratie
et certainement pas alignés avec ce que nous on essaie de faire
je te propose de, j'ai une petite question
j'ai beaucoup parlé de mistrelle interctelle
mais justement, le fait que tu parles de BFM
ça me fait penser à ça
c'est que quand même toi tu as une vie qui a pas mal changé
en peu de temps
dans le sens où à la base
tu es ingénieur dans une grande entreprise
mais on te connaît pas vraiment
et en fait tu es quand même maintenant le seul français
à être entré dans la liste des 100 personnalités
du magazine TIME dans la catégorie
INNOVATEUR
tu as fait la une de libération
tu serres les mains des grands patrons etc
on te demande des selfies j'imagine
moi pas tout
à Vive A Tech
ça fait quoi du coup de passer
de ce statut d'employé de boîte
à sort de superstars de LIA
enfin quelqu'un de très exposé
en ennemi
en fait c'est surtout la responsabilité
la responsabilité de faire
en sorte qu'une entreprise qui est assez grosse
qui a des ambitions très grandes, réussissent
ça contraint à être un peu sérieux
donc je pense que c'est surtout ça
qui a changé
après c'est vrai qu'il y a un aspect de représentation
et comme je disais c'est très important
parce qu'il faut se faire entendre
alors moi c'est pas mon aspect préféré
c'est intéressant
ça permet de rencontrer des gens
qui pensent différemment
tu parles à des politiques
qui viennent de zones très différentes
tu parles à
des acheteurs, des clients
ils ont leurs propres problèmes business
donc il faut je pense qu'une des
capacités que j'avais pas forcément très bien
j'espère que je l'ai plus
c'est une capacité d'écoute, il faut être patient
il faut écouter, il faut comprendre
il faut comprendre ce que les employés veulent
il faut comprendre ce que les climes veulent
il faut comprendre ce que les politiques veulent
et donc
on progresse
t'as envie d'ancien, âgé, tranquille
tu manques pas trop alors
c'était pas si tranquille
c'était très tâche
c'est à dire que tu sais ce qu'il faut faire
tu peux coder, ce qui vient quand t'es ingénieur
aussi c'est que tu peux faire beaucoup de choses tout seuls
je pense que moi aujourd'hui
une des choses qui est différente
c'est que je peux pas trop faire les choses tout seuls
il faut que je parle avec les gens
il faut que tu parles avec les gens dans l'entreprise
pour qu'ils soient alignés
et donc
mais moi ça me passionne aussi de faire en sorte
qu'on ait tous dans la même direction
Guillaume Etimote aussi
ils sont passés de plus en plus
de codeurs à des gens qui doivent
aligner des codeurs pour aller dans la même direction
et c'est
intéressant d'une autre manière
moi j'ai plus le temps de coder mais alors en fait peut-être qu'un jour j'y retournerai
je code un peu quand même
pour tester les API
les choses qu'on fait, je teste nos produits
mais
ouais c'est une complexité différente
c'est des architectures différentes
il faut architecter des organisations avant qu'il fallait architecter
des codebase
mais c'est tout aussi intéressant
c'est moins déterministe a priori
ouais c'est moins stable
il y a beaucoup d'instabilité
il faut que je mange les restes
et la partie
time et juste ma média etc
à quel point c'est
un truc qui t'emmerde
ou auquel on se fait
moi je suis assez indifférent
c'est vrai qu'il y a des tops alors il doit faire vendre
j'ai fait plein de tops de
différents niveaux, le time c'est le meilleur
c'est intéressant
c'est quand même, ça vaut ce que c'est beau
mais c'est une personnalité française
qui apparaît dans ces trucs là
d'habitude ça n'arrive pas c'est quand même un indicateur
en fait c'est plus aussi sur le côté confidentiel
aujourd'hui tu n'es plus quelqu'un
de confidentiel
rien que ton nom il est
il est en une de libération c'est quand même fou de se dire ça
alors je pense qu'il faut relativiser
c'est pas confidentiel dans le milieu de la technologie
et puis c'est vrai que nous des intentions avec le chat
c'est d'aller ramener
c'est d'apporter la technologie à tout le monde
peut-être que Mistral deviendra moins confidentiel
mais aujourd'hui on est quand même surtout connu
par le milieu de la tech
c'est ça que je dis, les selfies, on me les demande
à vivre la tech, pas dans la rue
dans l'insin de l'amicorpé
pas encore
est-ce que tu t'attendais, je reviens sur la question de la représentation
en lançant Mistral
est-ce que tu t'attendais à devoir faire autant de représentations
comme ça que ça soit autant des acteurs privés
des gouvernements
des médias, enfin bref
faire autant de représentations
alors que ton métier à la base c'est de scientifique
d'une certaine manière
je savais que ça allait être vite politique
parce que c'est vrai qu'on a
un des premiers meetings que j'ai pris
c'était avec
la direction des entreprises
parce que c'est vrai qu'ils étaient intéressés par ce qu'on faisait
en plus à l'époque il y avait le AI Act
alors il fallait qu'on explique
très vite il a fallu qu'on explique qu'il y avait certaines erreurs dans le AI Act
donc cet aspect de représentation
il nous a tombés dessus très vite
c'est vrai que les 4 premiers mois on a hésité
toute presse, toute forme d'interaction
à partir du moment où on a parlé on a été connu
beaucoup de sollicitations
je pense que c'est quelque chose qui s'apprend
sur le terrain
parce que
ça nous décide beaucoup de préparation
de médiatrainings etc et puis de moins en moins
là j'ai pas fait de médiatrainings, j'ai pas fait de bêtises
c'est ce que nous avons fait
j'espère bien, nous on ne veut pas des gens médiatrainiers
mais c'est vrai que c'est pas naturel
il faut faire du médiatrainings
sur les premières interviews
et puis il faut continuer à le faire un peu en permanence
c'est pas ma passion
mais
il faut le faire et puis je pense que
n'importe qui qui s'y met
devient meilleur à chaque fois
et il y a aussi un côté
il ne peut pas être, enfin c'est pour ça que je disais en rigolant
pas trop de médiatrainings c'est qu'il y a
aussi un côté intéressant
à voir sa marque de fabrique en termes de com
c'est ce que vous avez fait, notamment le côté
balancer des tweets
avec des liens magnètes etc
c'est pas, t'apprendras jamais ça
jamais ça dans un petit...
ça tout le crédit, il faut le faire
ce qui est bien c'est qu'on a des hardcore développeurs
chez nous qui comprennent les codes
et commencent à... je vais te donner un exemple
cette fois c'est toi tu peux pas dire que c'est guillible
et donc ça vient de me revenir
c'était sur une histoire de leak
je sais pas si tu te rappelles
ah oui c'est vrai, sur mi-cue
je crois que ça s'appelait, alors le c'est le...
je sais pas quel est le vrai nom du coup du vrai modèle
ça vous le saurait jamais
mais du coup un modèle
qui leak sur Regglingface
c'est pas faix près j'imagine de votre point de vue
mais en fait ça crée un petit bull de
discussion, tout le monde se met à parler de ce
nouveau modèle secret qui vient de chimistrale
et toi tu fais une merge
réquest je crois, avec Marquess, ça serait
quand même bien de mettre l'attribution
avec les logos du strat, ça très fort
ouais ça il avait fallu être réactif
la anecdote c'est que
ma fille avait trois semaines à l'époque
donc du coup j'étais encore à la maison
je travaillais depuis la maison, j'ai dû revenir
au bureau, ouais j'ai reste là
ça s'est bien passé finalement
de toute façon on a des nouveaux modèles
qui arrivaient en permanence
donc assez vite
tu l'as pas mal pris mode c'est la catastrophe
non il fallait faire quelque chose
mais on a fait quelque chose
très bon, très bien joué
ouf, tu espères qu'on t'a pas trouvé les cimés
non je pense que ça va, j'espère que je vais pas te le donner trop de mal
non non c'était trop intéressant vraiment
pour te dire c'est rare qu'on fasse des parties aussi
aussi longues mais on se doute
que c'est pas tous les jours qu'on t'aura
moi j'espère qu'on te re-ra à nouveau
peut-être, je ferai ravi de revenir
ça serait trop bien dans le futur
quand Mistral aura encore changé
ce qui arrive souvent
donc en vrai
l'invitation est lancée dans un an, deux ans
c'est bien moté, puis bravo pour ce que vous faites
c'est que voilà ça nous apporte des employés
coucou à eux
à bisous
à l'équipe de Danscore
merci beaucoup d'être venu avec nous
on va faire une petite pause de
500 minutes et on va se rejoindre
après, on parle toujours de dia
mais cette fois appliqué aux jeux vidéo
et on remercie encore Arthur d'être venu avec nous
bientôt, si vous voulez postuler
n'hésitez pas, c'est sur Mistral, allez-y en force
représentez-nous bien par contre
et utilisez le chat
en vrai
en vrai c'est pas
le nom qui peut-être
vient tout de suite aux gens alors que pourtant
en termes de, comme tu disais, en termes de fonctionnalités
de modèles etc c'est sous côté
c'est sous côté
ça marche très bien et ça marche de mieux en mieux
vous avez vite à venir

Episode suivant:

Comment l'IA transforme la triche dans les jeux compétitifs

Les infos glanées

Je suis une fonctionnalité encore en dévelopement

Signaler une erreur

Underscore_

IA, Hacking, Robotique — Des conversations de terrain avec ceux qui construisent. 🥨

Partenariats: underscore@micorp.fr

---

Hébergé par Acast. Visitez acast.com/privacy pour plus d'informations.

Card title

Lien du podcast

[{'term': 'IA', 'label': None, 'scheme': 'http://www.itunes.com/'}, {'term': 'Investissement', 'label': None, 'scheme': 'http://www.itunes.com/'}, {'term': 'Nouvelles Technologies', 'label': None, 'scheme': 'http://www.itunes.com/'}, {'term': 'Tech', 'label': None, 'scheme': 'http://www.itunes.com/'}, {'term': 'Actu tech', 'label': None, 'scheme': 'http://www.itunes.com/'}, {'term': 'Cybersécurité', 'label': None, 'scheme': 'http://www.itunes.com/'}, {'term': 'Développement', 'label': None, 'scheme': 'http://www.itunes.com/'}, {'term': 'Dev', 'label': None, 'scheme': 'http://www.itunes.com/'}, {'term': 'Entreprenariat tech', 'label': None, 'scheme': 'http://www.itunes.com/'}, {'term': 'IT', 'label': None, 'scheme': 'http://www.itunes.com/'}, {'term': 'Robotique', 'label': None, 'scheme': 'http://www.itunes.com/'}, {'term': 'Technology', 'label': None, 'scheme': 'http://www.itunes.com/'}]

Go somewhere