Cette nouvelle puce dédiée à l’IA est prodigieuse

Durée: 31m47s

Date de sortie: 04/03/2024

Groq, c’est un énième chatbot basé sur des modèles d’IA, comme il en existe des dizaines aujourd’hui. Mais derrière Groq, se cache une prouesse technique. Une nouvelle puce, un nouveau type de processeur, spécifiquement dédié aux modèles de langages. Et ça pourrait vraiment tout changer !


Pensez à mettre 5 étoiles pour soutenir l’émission !


Écriture : Matthieu Lambda



Hébergé par Acast. Visitez acast.com/privacy pour plus d'informations.

A au fait maman merci pour le conseil.
Ah oui lequel ?
Ouvrir un plan d'épargne retraite à la Carac.
Ah oui.
En 2024, le fonds euro de la Carac m'a rapporté 4%.
Mais oui la Carac s'occupe bien de nous et depuis longtemps.
Et nous avons un conseiller en patrimoine dédié qui change tout.
Et jusqu'au 31 mars, la Carac me donne 50 euros si je verse 2000 euros.
Et ça peut aller jusqu'à 1000 euros offert.
A la Carac, on se bat pour vous.
Les taux passés ne préjuchent pas des taux à venir.
Taux net de frais avant prélèvement sociaux.
Offre soumise à conditions, plus d'informations sur carac.fr.
Mutuelle soumise au livre 2 du Code de la Mutualité.
Comme tu le disais Mathieu, on va avoir un sujet vraiment très intéressant aujourd'hui.
Aujourd'hui, dans cette chronique intelligence artificielle,
nous n'allons pas vous parler d'un niaime nouveau modèle qui fait des trucs chouettes,
d'une niaime nouvelle application révolutionnaire ou de fine tuning.
Non, on va vous parler d'une puce.
Une simple puce, une simple carte graphique finalement,
qui pourrait bien changer énormément de choses,
qui pourrait complètement révolutionner la manière dont vous voyez actuellement les chatbots
et toutes les applications basées sur l'intelligence artificielle.
Comment tu as découvert ça déjà Mathieu ?
Honnêtement, je vais vous refaire l'origine de cette histoire.
Parce que c'est vraiment comme ça que ça s'est passé.
Parfois, je tombe sur des nouveaux outils, on m'envoie des nouveaux outils à tester.
Je fais une veille et parfois je les teste, je les mets dans un coin, je les mets dans un bout de notion.
Et là justement, je l'avais mis dans un bout de notion sans le tester.
Et je me dis, ok, on m'a parlé de Groq et j'ai R au Q.
Je vais tester, c'est en gros un chatbot en ligne où tu peux utiliser tes modèles,
genre mixtral, yama, les modèles ouverts, comme il en existe plein d'autres, mais je vais le tester.
Et donc, c'est ce qu'on va faire en direct, si ça fonctionne avec TIL,
j'ai testé et je vais lui demander.
Donc là, on va lui demander...
Là, jusque là, c'est...
C'est vraiment comme chat GPT, mais c'est une autre interface qui n'utilise pas sur GPT.
On peut choisir son modèle haut, yama, qui est mixtral.
Ça paraît parfaitement normal et on va lui envoyer un petit message.
Même que l'interface est pas dingue, honnêtement, ça pourrait être mieux.
Et voilà, raconte-moi l'histoire des lois d'Azimov.
Et donc, j'ai lancé cette requête.
Attention, t'es prête.
Voilà.
Alors, bon, on dirait que c'est un chatbot.
Sauf que je sais pas si vous avez fait gaffe, on pourrait le remettre plusieurs fois.
C'est allé vraiment super vite.
Mais genre, il y a eu, je pense, moins d'une seconde, une seconde et demi.
Il s'est pas marqué quelque part ?
C'est au-dessus.
Le nombre de tokens correspond à ça.
Essayez de refaire encore.
Donc, 127 tokens par seconde.
Sinon, tu peux lui demander...
Donc, ça va quand même super vite.
On ne s'en rend pas forcément compte parce que c'est écrit en plus.
On peut peut-être faire une comparaison avec chat GPT.
Moi, je pense que ça serait une bonne solution.
Waouh, il est si rapide, il avait prêchote.
Donc, ça va vite, mais c'est parce qu'il est créé au fur et à mesure.
Exactement.
Ça n'est pas lent.
Mais là, il y a bien quatre secondes, à mon avis.
Oui, et je pense qu'il utilise GPT...
3.5.
Non, 3.5, ok, très bien.
Donc, c'est censé être le truc le plus rapide.
Mais quand même.
En vrai, c'est plus rapide que...
C'est rapide chez vous, là, non ?
C'est aussi qu'on paye des gens en trinquette.
Mais c'est aussi qu'on utilise...
Chaises GPT 3.5, c'est pour que la comparaison soit fair.
C'est-à-dire que c'est des modèles qui sont théoriquement en termes de performances,
de benchmarks, qui sont similaires.
Et pourtant, là, d'un côté,
t'as quatre secondes de génération et de l'autre,
une demi ou...
Et ça va vraiment...
Enfin, je l'ai fait sur plusieurs trucs où j'ai demandé vraiment des choses utiles à ce moment-là.
Donc là, c'est une petite histoire et tout.
Ça va vraiment beaucoup plus vite.
Si je pense que si t'as une connexion lente, tu le vois encore plus.
Bref, ça va vraiment beaucoup plus vite.
Et je me suis dit,
tiens, pourquoi un simple front, un simple site web
est capable d'aller plus vite que tous les autres outils que j'ai utilisés à côté ?
C'est le même modèle.
J'utilisais Mixtra à chaque fois.
Chaises GPT, c'est le modèle le répété le plus rapide et le meilleur.
Comment ils font pour aller plus vite ces collers, leurs secrets de sauce ?
Et donc du coup, je me suis dit, je vais diguer sur, je vais creuser
pour savoir qu'est-ce qu'ils font, qu'en fait, ça va plus vite leur site web et pas un autre.
Alors, on peut se poser juste la question en petite à partie de pourquoi aller plus vite.
En vrai, là, on l'a bien vu.
Pour un humain, Chaises GPT fait carrément le taf.
Oui, ça va plus vite que ce qu'on peut lire.
Voilà, ça va plus vite que ce qu'on peut lire, donc on s'en fout.
Pour un humain, c'est pas forcément nécessaire.
Sauf que pour une machine, là, ça change tout.
Parce que si on commence à utiliser cet IA avec un autre algorithme, un autre programme, un autre logiciel,
tous ces temps vont pouvoir être raccourcis et donner des applications incroyables.
On viendra sur les potentielles applications.
Et il y en a qui ont déjà eu des applications, qui ont déjà essayé des cas d'usage,
comme on dit, qui sont très intéressants, on y reviendra à la fin.
Juste pour donner un exemple pour les gens, quand vous utilisez Chaises GPT avec des plugins,
par exemple qui va faire des recherches sur Internet en arrière-plan,
qui va exécuter du code Python pour vous afficher des jolis graphes,
ou vous générez des images à la volée.
À chaque fois, en réalité, ce qui se passe en arrière-plan,
c'est que vous avez des chaînes de pensée, comme on dit, des exécutions cachées,
de discussions entre différents agents, différents programmes,
qui sont une sorte de discussion cachée et qui pourtant nous impactent en tant qu'utilisateur,
parce que c'est ça qui fait qu'on attend que ça charge.
Donc c'est ça dont tu parles.
Et par exemple, toutes les applications que tu as nous apparaît dans une précédente vidéo
sur la chaîne Ender Score, où tu nous présentes les 4, 5, 6 nouvelles applications au dédié Alia,
font tous ça, font des appels Alia en bas-grande,
qu'on ne voit pas en arrière-plan, et sauf que tout ça, ça a pris du temps.
Pour l'instant, on est patient, parce que c'est Alia, on trouve que ça va vite,
mais on ne va pas être si patient si longtemps que ça.
Tu voulais ajouter quelque chose ?
C'est ça, c'est qu'en fait, on peut dire, ok, mais est-ce qu'on est vraiment à 10 secondes près ?
En fait, c'est se tromper de ce qui est important.
Il y a plein de papiers qui sortent qui t'expliquent en termes de performance.
Si tu peux avoir 4 interactions, 8 interactions, 32 interactions,
c'est-à-dire des chaînes de pensée, des discussions simulées,
tu vas vraiment obtenir des résultats qui étaient complètement impossibles avant.
On a montré un exemple de Dia qui arrivait à générer des TikToks à partir de rien.
Je lui pense à celle-là.
Typiquement, actuellement, c'est 5 minutes de génération.
On a dû passer à un autre outil et revenir après.
En fait, c'est quand même un champ des possibles qui s'ouvre.
Effectivement, il y a des cas d'usages super précis dont on va vous parler,
ou vraiment avoir ce type de vitesse mystérieuse et anormal.
Ce serait vraiment très cool.
Et là, vous avez vu une démo pendant que tu parlais,
où ça a pris 25-30 secondes, je dirais, je n'ai pas exactement calculé.
On a demandé de générer dans chat de GPT une image.
Raconte-moi les lois d'Azimov en image.
Il y a un système d'abord qu'ils comprennent,
après qu'ils interprètent, qu'ils proposent plusieurs légendes d'images,
et qui génèrent l'image, ça a pris environ 30 secondes, je dirais.
Donc franchement, il y a vraiment des choses à faire,
pas forcément pour l'humain encore une fois,
mais pour ce qu'il y a derrière, pour les machines, les programmes.
J'ai donc voulu savoir ce qu'il y avait derrière ce simple site web,
pour qu'il puisse optimiser à ce point-là la génération par chat de bot.
Alors, première chose, il y en a qui confondent avec GROC de Twitter,
avec un K, ça n'a rien à voir.
Il y a GROC, GR, OK, c'est Twitter,
enfin c'est une intelligence artificielle de Twitter,
là c'est GROQ.
Et qu'est-ce qu'ils utilisent ?
Ils ont un logiciel de fou derrière un site web super bien optimisé,
mis sur un cloud des GPU en partenariat avec Nvidia.
Non, rien du tout, en fait ils utilisent une nouvelle puce hardware.
Donc si vous voulez vous reprendre leur idée,
vous ne pouvez pas, parce que c'est de l'hardware,
sauf si vous connaissez beaucoup en architecture de puce graphique.
Et donc c'est une nouvelle puce, ils ont appelé ça des LPU,
pour Lengage Processing Unit.
Donc c'est des puces qui en fait sont expressément fait
pour générer du langage et le comprendre par Chatbot.
En fait...
C'est pas un GPU moi, quand j'ai vu l'image...
Ça n'est pas un GPU.
J'ai cru que c'était un GPU au début.
Ça n'est pas un GPU.
Pourquoi ça n'est pas un GPU ?
C'est des puces qui sont utiles que pour l'inférence.
Alors l'inférence c'est quand nous on fait une requête dans Chatbot
et LIA nous répond.
Et en fait il y a deux choses à différencier dans LIA,
où là où il faut de la puissance de calcul,
il y en a une où il faut énormément de puissance de calcul.
C'est l'apprentissage, c'est pour entraîner les modèles,
et ça c'est fait par les Google, les Mistral, les Facebook, les Meta, etc.
Et il y a quand on utilise ChatGPT,
ça utilise beaucoup moins de ressources, mais quand même ça utilise des petites ressources.
C'est là que quand on l'héberge en local sur notre marque,
on utilise notre GPU.
Mais après quand c'est dans des serveurs, on utilise par exemple
les gros serveurs de NVIDIA, les gros scargraphiques H100,
qui sont là en fait, soit pour entraîner un modèle,
soit pour répondre l'inférence,
c'est vraiment l'équivalent d'une requête web
quand on est sur Internet.
Alors là ça peut pas générer d'images par exemple ce truc ?
Non, et c'est pour ça que ça s'appelle
Language Process Units,
c'est que vraiment ils se sont dit on va faire quelque chose
de vachement spécialisé sur le langage.
J'ai compris ça, je me suis dit ok je vais regarder ces specs.
Regardons les specs de ce LPU.
Je vois la quantité de mémoire,
alors c'est pas ce qu'il y a en rouge, c'est ce qu'il y a au-dessus.
230 méga octets,
de RAM, de mémoire de la puce.
C'est peanuts.
C'est rien du tout, et ça n'a aucun sens.
Pour comparactif, la puce qui fait foi dans l'IA,
c'est donc j'en parlais, la puce de NVIDIA H100,
c'est la référence pour les Google, les Microsoft et les OpenNG,
elle a dans certaines versions jusqu'à 80 Giga de mémoire pour une puce.
Là par puce, il y a 230 méga octets.
Alors que ça va plus vite.
Pour ceux qui ne mangent pas des cartes graphiques au petit-déjeuner,
les ordres de grandeur pour des cartes normales,
c'est dans les 8, 10, 12, 16 Giga.
C'est des bonnes cartes graphiques déjà.
C'est les meilleurs que tu peux obtenir.
24 Giga, c'est si tu prends actuellement une 4090.
Et que tu es monteur vidéo à temps plein pour le cinéma.
Ouais, et que tu fais du blender, des animations, des animations, etc.
Et quasiment personne n'a besoin de ça, mais actuellement,
ça va te coûter dans les 2000 euros à peu près.
C'est le mieux que tu peux avoir en tant que personne normale pour un GPU.
C'est une 4090 et là tu peux espérer avoir 24 Giga de RAM.
Et pour vous donner un... Alors on parle bien de VRAM,
donc c'est de la RAM de GPU.
C'est pas les petites barrettes que vous mettez dans votre machine.
Et donc pour vous donner un ordre d'idée, là-dessus,
vous pouvez faire tourner des modèles type mixtral
qui vont faire 30 milliards de paramètres à peu près.
Ah c'est bien, vous pouvez commencer tout doucement
à faire tourner des modèles un peu plus gros,
des 70 milliards de Liyama ou des choses comme ça,
si vous les réduisez beaucoup en bref, c'est pas terrible.
En gros, rien que ça, la meilleure cas de graphique que nous autres,
on peut acheter, c'est très vite limiter en termes de...
Par la mémoire. Exactement, par la mémoire.
Donc 24 Giga, moi dans ma tête, c'est peu, en fait, c'est vraiment très peu.
La 3... 230... 230 méga octets. C'est ridicule.
C'est comme s'il n'y en avait pas.
Je regarde une ligne après et je m'intéresse
au nombre d'instructions qu'on peut faire par seconde.
C'est une salle qui est beaucoup utilisée dans les CPU, les GPU,
tout ce qui est processeur.
Pour un, on va revenir à notre H100 de Nvidia,
on peut faire 1000 teraflops par seconde.
Donc 1000 opération, 1000 instructions.
Le grog, là, le LPU de Grogchip, il est à 188 teraflops.
Ok, donc c'est pas ça non plus. Qu'est-ce qui se passe ?
Et pourtant...
C'est quoi la différence ?
188. Donc c'est divisé par 5.
Ok. C'est divisé par 5.
Alors après, forcément, les LPU, on a plusieurs.
Donc les comparaisons, on ne peut pas exactement les faire comme ça.
Et pourtant, les résultats sont l'un.
Pour l'instant, je vous ai dit en inférence,
le LPU peut générer 400 tokens par seconde
pour simplifier 400 mots par seconde.
Vous lui donnez une instruction, il va pouvoir écrire 400 mots par seconde.
Alors que pour des GPU classiques, mais quand même un peu puissants,
on est à 100 tokens par seconde.
Mais c'est un peu la limite qu'on avait.
Ok, on est à 100 tokens par seconde, ça va très bien.
100 mots par seconde.
Eux, ils sont arrivés.
Tout à l'heure, on a même vu du 525 tokens par seconde.
Qui est vraiment un vrai sable.
Oh voilà, 520 tokens par seconde.
Résultat, et on peut...
Ah oui, non, je n'ai oublié quelque chose.
Donc c'est bien plus rapide en inférence.
Et en plus, c'est beaucoup moins cher pour les chatbots
qui hébergent ce genre de plateforme.
Parce que forcément, quand tu es un chatbot,
tu as des coûts en inférence, ça te coûte de l'argent.
Et c'est beaucoup moins cher.
On est environ à...
Souvent c'est l'amortissement et l'électricité, quoi.
Exactement.
En termes de perf, si je dois résumer,
on est à 10 fois la vitesse qu'on aurait
avec un système classique jusqu'ici.
Et 100 fois le prix par performance.
Donc le prix pour une performance à égalité
avec un système classique.
Résultat, qu'est-ce qui s'est passé ?
Il y a plein de plateformes qui se sont mis à intégrer
l'API de Gropchip pour utiliser les LPU de Gropchik.
Il y a eu Versel.
Ah ouais ?
Ouais, Versel.
Alors ils ne font pas tout sur Groguin.
Mais ils ont implémenté ça.
Versel, on a eu PO aussi, je ne sais pas si ça vous parle.
C'est que les outils de développeurs.
De chatbots.
Non, de chatbots aussi que vous pouvez avoir en frontaine.
Donc PO, c'est un assisteur.
Vous pouvez les demander recettes de cuisine, etc.
Je dis que c'est incroyable, c'est pas cher, c'est performant.
C'est quoi leur secret ?
On l'a dit, c'est une puce dédiée.
Et en fait, ils sont partis du postulat que,
à la naissance de LIA,
si on a commencé à la naissance de LIA,
ça fait très bizarre,
mais quand LIA a commencé à s'émanciper,
à devenir vraiment efficace,
et qu'on a commencé à utiliser LIA de façon quotidienne,
en fait, on a utilisé les GPU,
parce que ça fonctionnait,
et qu'ils étaient présents sous la main.
Et que c'était très bien ça,
les très vides, ça marchait avec nos GPU,
on l'a fait.
Sauf que, en fait, de base,
un GPU, c'est fait pour processer des images graphiques.
C'est pas fait pour de l'intelligence artificielle.
Alors, ça marche très bien.
Sauf que Grogg, là, ils se sont dit,
ça marche très bien,
on peut faire carrément mieux.
Et en fait,
faire mieux,
dans le monde de LIA,
c'est faire beaucoup, beaucoup,
beaucoup plus simple.
Ce qui est fou,
c'est que ça se voit même en une image.
On va vous montrer un GPU,
un scan d'un GPU,
et un scan d'un LPU.
La LPU, c'est vraiment la bibliothèque
super bien rangée, quoi.
C'est vraiment, il y a les livres,
à toutes les étagères,
un GPU, c'est beaucoup plus complexe
comme architecture.
C'est un bordel.
C'est un bordel.
Et voilà, ils ont fait des trucs
beaucoup plus simples.
Et en fait, ils se sont attardés
sur une chose très importante
pour inférer des IA,
donc pour répondre à des IA.
C'est qu'ils ont été conçus
pour un volume élevé de calcul
à faible précision.
Donc vraiment, c'est pas des calculs compliqués,
mais c'est des beaucoup, beaucoup de calculs
avec beaucoup d'entrée
et beaucoup de sorties.
Donc globalement, tout ce que ne fait pas
ou fait moins bien un CPU,
donc un processeur ou un GPU,
une carte graphique.
Et ils se sont tout mis
sur la bande passante.
La bande passante est très, très importante.
Pour une puce, si on regarde les specs,
elle est à 80 terabites secondes.
C'est absolument immense.
Et en fait, ils se sont dit,
ok, on va pas mettre beaucoup de mémoire.
On va faire la stratégie inverse.
Au lieu de mettre, pousser la mémoire à fond,
on met pas de mémoire.
Par contre, on est tellement rapide
qu'en fait, on n'a pas besoin de la mémoire,
on fait tout en bande passante.
Là, j'ai simplisé.
C'est comme un joueur de foot,
tu as des trade-offs en gros.
Exactement.
Là, ils ont maximisé la bande passante.
Mais du coup, c'est...
J'ai minimisé la mémoire.
J'imagine que, surtout,
la conséquence, malheureusement,
c'est qu'ils peuvent pas avoir autant de mémoire.
Et donc, comment ils font ?
Plètement.
J'imagine qu'ils ont mis plein.
Et du coup, je vais pas rentrer dans le tamis,
ils ont mis plein plein plein plein plein plein en classeur.
Parce que là, effectivement,
pour atteindre les 50 ou 100 Giga
nécessaires à faire tourner des gros modèles,
tu dois en avoir combien ?
Faites le calcul, en vrai.
Je sais pas.
Tu en as 5 par Giga,
4 par Giga, en gros.
Et donc...
J'ai plus le calcul là.
Ça fait, typiquement, 100 Giga.
Tu en as besoin de 400 LPU
pour faire tourner les plus gros modèles qui existent.
Sauf qu'en fait,
le LPU est une puce qui coûte beaucoup moins cher.
Et aussi, qui se met beaucoup mieux en cluster.
En fait, les très grosses entreprises,
ils ont du mal à faire des immenses clusters de GPU.
Ils y arrivent parce qu'il faut bien.
Mais parce qu'en fait,
il faut des CPUs qui gèrent les GPUs.
Et ça se met...
C'est compliqué à mettre en cluster.
Ça chauffe.
Ça chauffe.
Et même, d'un point de vue architecture et logiciel
pour gérer tout ça,
en fait, paralléliser, c'est toujours un peu compliqué.
Là, les LPUs,
vu que c'est des petites puces en réalité,
ça se met bien plus facilement en cluster.
C'est-à-dire en groupe.
On arrive beaucoup plus facilement à les regrouper.
En gros, c'est comme ça qu'ils ont réussi.
Ok.
T'as, si bien.
Si je...
Mais du coup, j'imagine qu'il doit y avoir effectivement
des rangets avec 400 GPU.
Mais au-du coup...
Le nombre d'utilisateurs...
LPU, du coup.
Pardon, de LPU.
Et au-du coup...
En fait, c'est beaucoup plus distribué.
C'est beaucoup plus distribué.
Tu l'as très bien dit.
Alors, j'espère qu'on n'utilise pas des mots qui ne sont pas dans cette industrie.
On vulgarise très, très grossièrement.
Et en fait, est-ce que c'est nouveau,
parce qu'ils ont fait un petit buzz quand même sur Twitter,
ça a vachement bien marché,
est-ce que cette architecture est nouvelle ?
En fait, non.
Ça existait déjà.
Et pour cause, le fondateur de Grok,
et des Grokchik,
Grokchip,
c'est un ancien de Google
qui a travaillé sur le premier TPU.
TPU, c'est pour Tenseur Processus Units.
Ça a été lancé en 2015.
Et en fait, c'est des puces qui sont conçues
pour les Tenseurs, on dirait en français.
Donc c'est un objet mathématique.
Et pour le calcul matriciel.
Pour faire très simple,
ce qu'on besoin, les IA,
c'est de faire des calculs matriciels
et de faire des Tenseurs,
parce que c'est des objets en 3D, en gros,
pour faire simple.
Et Google, ils se sont dit,
ok, on a besoin de faire ça.
Du coup, on va inventer notre propre puce,
qui s'appelle le TPU.
Et en fait, c'est un ancien de Google
qui a participé à l'élaboration de ce chip,
qui a fait son propre chip,
parce qu'il s'est dit,
en fait, il y a complètement un marché.
Et en fait, le TPU surmonte
deux goulots d'étranglement,
des LLM, des Chatbot, etc.
C'est, comme j'ai dit, la quantité de calculs
et la bande passante mémoire.
Ils misent tout sur ces deux choses-là,
au détriment du reste.
Et pour finalité,
ça réduit le temps nécessaire
pour générer un seul token.
Et donc, ça réduit,
ça génère des textes bien, bien, bien plus rapidement.
J'ai une question, du coup,
parce que je me rappelle très bien
quand ils ont sorti les TPUs à Google.
Oui.
Et du coup,
tous les calculs matriciels,
c'était super bien pour les images,
mais du coup,
les LPUs, c'est pas basé sur les TPUs.
Ils ont dû décliner le principe,
mais pour les transformateurs,
il y a une deuxième couche d'intelligence
qui est vachement importante,
c'est que c'est le compilateur.
En gros, c'est l'interface entre LLPU et LLM.
Là, dans leur compilateur,
ils ont tout optimisé
pour que ça s'adapte à des LLM de langage.
Et en gros, au début,
ils comprendnt avec quel LLM
il va parler, comment le LLM, il parle.
Et il l'adapte un peu sa compilation
pour faire en sorte que ça soit plus rapide.
En gros, ils ont un compilateur super rapide
qui s'adapte aux LLM,
alors qu'un GPU,
tout est basé sur QDA,
je ne vais pas le maîtriser.
Du coup, j'ai bien compris,
c'est qu'ils ont conçu la puce
pour qu'elle soit hyper efficace.
En général, pour rendre plus efficace du hardware,
c'est qu'on contraint ce qu'il peut faire.
C'est toujours comme ça.
Un CPU, ça peut tout faire,
donc c'est moyennement efficace en général.
Un GPU, ça peut faire beaucoup moins de choses,
parce qu'il y a beaucoup de choses
qui se voient dans le silicium,
tu peux voir certains algos, plus ou moins.
Ça permet d'avoir des performances super.
Là, ils vont encore plus loin,
dans cette direction-là.
Mais pas au point que tu peux seulement utiliser leur puce
avec un LLM,
tu ne peux pas juste l'utiliser avec Iyama,
ils ont trouvé une sorte d'entre-deux
où c'est à la fois relativement générique
pour tout ce qui est le langage.
Et du coup, à l'avenir,
ça sera probablement compatible
quand ils mettront à jour leur compilateur spécifique
avec d'autres trucs.
Et en fait, c'est une des déclinaisons des TPUs,
parce que vous le savez sans doute,
mais Google a très très tôt open-sourcé
ces librairies d'apprentissage.
C'est ce qu'on appelle Tender Flow.
Et en fait, tout ça est complètement open-source.
Et donc, les puces qui sont faites
et qui se basent sur cette librairie,
sur les TPUs,
chacun peut faire sa propre puce.
Et Grok n'est pas du tout les seuls.
Facebook, on sait que Facebook travaille sur la sienne.
Je ne sais plus comment elle s'appelle.
MTIA, c'est à la fin, si jamais-t-il.
Amazon aussi,
travaille dessus sur des projets que s'appelle Trenium et Nferensia.
Et il y a tout plein de startups
qui, comme Grok, se sont dit,
il y a un marché.
Et en fait, il y en a plusieurs.
Donc là, c'est Grok qui est mis en avant.
Et il y en a plein, parce que vu que tout le monde a accès
aux mêmes ressources,
tout le monde s'est dit,
on va faire des puces dédiées à l'inférence,
qui sont dérivées de ce TPU.
Donc le LPU est en fait une déclinaison,
comment on dit en programmation quand on veut...
Un fork.
Pas un fork.
En fait.
Bref, j'ai pu les mots, mais c'est pas grave.
Mais c'est d'écrire parce qu'on n'est pas...
Le mot, une instance.
Ah oui.
En gros, c'est une instance d'une architecture de puces
dédiée à une application.
Et donc là, on parle aujourd'hui du LPU.
Il y en aura sans doute bien d'autres.
Mais en fait, ce qui est intéressant,
c'est que ça apporte vraiment quelque chose.
Justement, qu'est-ce que ça apporte ?
Qu'à d'usages.
En vidéo.
Et c'est ça qui est cool.
Le premier, on va pouvoir montrer le tweet,
c'est le transcript d'une vidéo avant même que la vidéo soit finie.
Ouais, je te promets.
Et donc, c'est des gens qui ont mis au point ce petit truc,
ils ont utilisé différents outils.
Et grâce à ça, tu peux lancer la vidéo.
Salut, si vous appréciez Endorscorp,
vous pouvez nous aider de ouf en mettant 5 étoiles sur Apple Podcast,
en mettant une idée d'invité que vous aimeriez qu'on reçoive.
Ça permet de faire remonter Endorscorp.
Voilà.
Telle une fusée.
Et donc, là, pendant la vidéo, il a son petit truc qui tourne
et il va y avoir le transcript qui apparaît.
Premier cas d'usage que je trouve incroyable.
C'est plus rapide que du temps réel en gros.
Exactement.
Effectivement, c'est dingue, ouais.
C'est vraiment, en fait, voir une vidéo qui est traduite
avant même d'avoir la fin de la vidéo,
c'est un peu brainfuck.
C'est un peu fou.
Et après, il lui demande de résumer la vidéo, etc.
Donc il est toujours, effectivement, à 533 tokens de percefondes.
C'est délirent, ouais.
C'est délirent.
Deuxième application, et vous y avez peut-être déjà pensé,
est-ce que vous avez des idées d'application
qu'on pourrait faire avec une IA qui va très très vite,
un chatbot qui va très très vite ?
Après, on en a parlé au début.
C'est les applications avec beaucoup de chaînes de pensée.
Ouais.
Moi, je pense à un autre truc.
Vas-y.
Bah, c'est les assistants.
Les assistants vocaux ?
Bah ouais, parce que je sais bien qu'il y a nous quelques mois encore,
il y avait un peu les premiers breaks disponibles
qu'on pouvait mettre ensemble,
les speech-to-text, etc.
Donc rapidement, n'importe qui maintenant peut essayer de créer
un semblant de série intelligent.
Et le gros problème actuel, c'est la latence.
Il y en a plusieurs, mais un des gros problèmes, c'est la latence.
Parce qu'en fait, on sent pas du tout compte,
mais ce qui fait qu'on utilise ou pas un assistant,
c'est des petites choses, en fait.
C'est des petites frictions qui sont énervantes.
Par exemple, le fait qu'il te parle,
tu sais que tu lui dis quelque chose et il commence à parler,
et là, tu reparles.
Mais lui, il est bloqué parce qu'il...
Il continue.
En fait, c'est des petites choses comme ça
qui font qu'actuellement, on n'est pas tous en train d'utiliser des assistants.
Et si jamais, effectivement,
ce hardware permet de générer des tokens à l'infini en très peu de temps,
eh bien, on résout un petit maillon de la chaîne
qui ralentissait beaucoup, beaucoup le temps d'infini...
Enfin, le temps de la discussion, les latences entre les questions et les réponses.
Et donc moi, j'ai vraiment hâte de voir le Siri basé sur Grok
qui te répond en une quarte de seconde.
Il paraît que ça peut même être bizarre si on te répond...
Enfin, il y en a qui ont fait trop vite, qui ont commencé à faire des tests.
En gros, on peut te répondre tellement vite
par rapport à ce que fera un humain.
Nous, entre nous...
Tu as besoin de réfléchir des fois.
Exactement.
On met quand même deux bons bénie, tu vois.
Et si la réponse est trop instantanée,
ça peut même être quasiment étrange.
Oh, oh !
Tu as dit quoi ?
Tu as dit quoi ?
Des trucs de conversation, tu vas le voir, c'est...
Mais on pourrait avoir des potes IA dans les jeux vidéo, là.
Oui ?
Aujourd'hui, c'est...
Ah oui, tu fais référence à ce que t'avais fait sans Minecraft aussi, non ?
Mais oui, mais pas que...
Oui, mais du coup, on est bien plus rapide.
Genre, imagine, tu vas en RPG, et puis t'as...
Ouais, tu as des vraies conversations fluides, en fait.
C'est vrai.
Ok.
Oh non, mais intéressant.
Je pense que c'est un super point, notamment parce que,
typiquement dans un jeu, tu t'attends à ce qu'il y ait plusieurs...
plusieurs PNG, plusieurs personnages virtuels, par exemple.
Oui, qui font leur vie, qu'on leur...
Or, la solution, ce sera...
Enfin, ça peut pas être de...
de...
de...
de...
de...
de...
de...
de...
de...
de...
Il y a un moment d'avoir beaucoup, beaucoup plus de débit,
pour que...
tout ton monde virtuel puisse...
puisse évoluer,
ce qu'on a vus notamment dans les...
dans les démonstrations qui ont été faites,
sur...
Vous savez, où on génère des épisodes de South Park, par exemple.
Oui.
Et, c'était une des démonstrations super...
super fun, de ce qu'on...
ce qui est le...
Le mieux qui existe, actuellement,
en termes de scénarisation,
et de...
Et de contenus un peu tant réels,
qu'on pourrait voir un jour, dans un jeu vidéo, par exemple.
Et ben, mine de rien,
ça se passait pas du tout en temps réel,
c'est-à-dire qu'il y avait des jours de compute, de génération,
avant pour simuler le monde en gros et faire en sorte que, ah oui tel personnage,
ok, à telle heure il fait ça, à telle heure il fait ça.
Et en fait tous les mécanismes pour imaginer ce qui se passerait dans un monde virtuel,
pour virtualiser un petit monde qui pourrait plutôt être un jeu vidéo, un RPG,
et ben actuellement ça n'existe pas en Toriel.
Et donc j'avais pas pensé, et effectivement c'est probablement une des solutions de faire ça.
Ok, non non mais trop intéressant, c'est des isages que j'avais pas pensé,
dans le chat j'ai vu du trading, j'avais pas pensé non plus tu vois.
Ok, et du coup, Michel, peut-être que ce monsieur va réussir à te faire rêver
avec son application qu'il a postée sur Twitter.
Et là il va falloir mettre le son parce que c'est très important.
En vrai moi ça m'a fait quelque chose.
Attends un petit peu.
Oh, c'est incroyable.
C'est vraiment...
C'est au téléphone.
C'est pas mal hein.
Great, thank you for letting me know.
Je suis choquée.
C'est dingue.
Voilà, seule fois qu'on avait vu ça c'était Google qui avait déjà fait des trucs comme ça,
mais c'était en keynote.
C'était une vidéo.
Super optimisé, une vidéo, ils avaient pu la travailler pendant 15 ans.
Mais c'était à plusieurs années en plus.
C'était à plusieurs années mais par contre c'était sur des cas d'usage super précis,
genre c'était pour réserver un resto.
Et en plus c'était en mode keynote, on l'a jamais fait dans la vraie victoire.
Je trouve ça incroyable.
C'est incroyable, et vous avez vu la latence, c'est une seconde set.
Elle est humaine, elle est bien.
C'est ça, c'est bien.
Mais faut se foriser que ça, actuellement c'est une prouesse.
Rien n'arrive à la cheville de la latence.
Et pourtant, honnêtement, tu rajoutes une seconde, ça devient énervant.
Oui.
On est d'accord.
Là c'est bon.
Ils auraient dû faire la même vidéo de ça, mais avec une IA qui marche pas sur des LPU.
Juste pour la frustration de la conversation de ce...
Je pense que là elle est même un peu plus vive que certains...
On le dévise.
Que certains humains.
Je me dis, le matin vers 7h, ils sont pas aussi vifs.
Alors je pense que c'est fou.
C'est dur pour les humains.
Et le pire, c'est que ça pourrait être encore mieux, rien qu'avec ce LPU,
parce qu'elle est gravée en 14 nanomètres.
Si vous suivez un peu les puces, c'est beaucoup 14 nanomètres.
Aujourd'hui on arrive à faire du 3 nanomètres, il me semble.
Et c'est normal, c'est une startup, ils vont pas demander à des fonderies de faire des puces de l'espace.
Mais pour vous dire que, en fait, si ils arrivent à une finesse de gravure bien plus petite,
tu peux optimiser encore plus les personnages pour une seule puce.
Et 14 nanomètres, aujourd'hui, en 2024, c'est beaucoup.
Pour vous dire que ça pourrait aller encore plus loin, encore plus vite.
Ça veut dire que là déjà les calculs sont bons, ça compte déjà moins cher avec des bises super élevées.
Alors que c'est que le début de ce secteur.
Si j'étais un entrepreneur, je leur dirais que leur goto market est parfait.
Allez-y, c'est le moment.
Non mais leur timing est pour...
Je peux terminer sur une question que Twitter, enfin,
NVIDIA, plein de gens qui se disent, c'est bon, NVIDIA va s'effondrer, etc.
Toi tu dis non, pourquoi ?
Déjà, c'est spécialisé l'engage.
Complètement.
Et NVIDIA, ils font de la vidéo.
Donc, en fait, on n'est pas sur le même cas d'application, tout simplement.
Ben oui, rien que pour l'apprentissage, en fait, de tous les LLM.
NVIDIA, pour l'instant, est vraiment le...
Oui, parce que ça ne peut que faire l'inférence.
Pas du tout faire l'apprentissage.
Ça ne marche pas pareil sur l'entraînement.
Donc, déjà, tout ce secteur est mort.
Après, il y en a qui disent que dans les années à venir,
l'inférence va prendre vraiment une grosse, grosse place.
Mais en fait, rien ne vous dit que NVIDIA ne fait pas sa propre pousse
pour exactement ses usages.
Et en fait, c'est juste une certitude.
Donc NVIDIA n'est pas du tout mort, mais ce qu'il faut voir derrière Grogg,
c'est peut-être Grogg qui va rester, c'est peut-être une autre boîte.
C'est ce qui va être possible de faire à l'occasion,
grâce à ces nouvelles puces très spécialisées pour un usage DIA.
Moi, je ne serais pas étonné de voir, par exemple, des puces
dédiées à la génération d'image, par exemple,
et pas à la génération de langage ou des choses comme ça.
Ça va être, franchement, une période très intéressante à suivre.
Moi, ça m'étonnerait pas du tout, comme tu disais,
que NVIDIA travaille sur une carte optimisée pour l'inférence de vidéo.
Et pour répondre définitivement à la question,
quelqu'un dans le chat dit très justement,
regardez juste l'action à NVIDIA.
Oui, oui, mais ça...
L'action, oui.
Mais il y en a qui ne vont pas être convaincus en regardant juste une action
à un instant téné.
Mais ça, c'est une action renseignale.
En général, en général, c'est jamais...
T'as des grosses annonces qui, dans la perception,
pourraient avoir un impact négatif sur une boîte.
Ça peut se ressentir là, vraiment.
C'est l'inverse.
...

Les infos glanées

Je suis une fonctionnalité encore en dévelopement

Signaler une erreur

Underscore_

IA, Hacking, Robotique — Des conversations de terrain avec ceux qui construisent. 🥨


Partenariats: underscore@micorp.fr


---


Hébergé par Acast. Visitez acast.com/privacy pour plus d'informations.

Tags
Card title

Lien du podcast

[{'term': 'IA', 'label': None, 'scheme': 'http://www.itunes.com/'}, {'term': 'Investissement', 'label': None, 'scheme': 'http://www.itunes.com/'}, {'term': 'Nouvelles Technologies', 'label': None, 'scheme': 'http://www.itunes.com/'}, {'term': 'Tech', 'label': None, 'scheme': 'http://www.itunes.com/'}, {'term': 'Actu tech', 'label': None, 'scheme': 'http://www.itunes.com/'}, {'term': 'Cybersécurité', 'label': None, 'scheme': 'http://www.itunes.com/'}, {'term': 'Développement', 'label': None, 'scheme': 'http://www.itunes.com/'}, {'term': 'Dev', 'label': None, 'scheme': 'http://www.itunes.com/'}, {'term': 'Entreprenariat tech', 'label': None, 'scheme': 'http://www.itunes.com/'}, {'term': 'IT', 'label': None, 'scheme': 'http://www.itunes.com/'}, {'term': 'Robotique', 'label': None, 'scheme': 'http://www.itunes.com/'}, {'term': 'Technology', 'label': None, 'scheme': 'http://www.itunes.com/'}]

Go somewhere