ServiceNow, la plateforme IA pour la transformation de l'activité, répond à vos besoins.
Vous avez dû entendre parler de IA.
En vérité, la puissance de IA ne dépend que de celle de la plateforme qui la fournit.
ServiceNow est la plateforme qui met IA au service de toutes vos équipes.
Elle élimine les frictions et la frustration pour vos employés.
Elle booste la productivité de vos développeurs.
Elle fournit des outils intelligents à vos agents pour améliorer la satisfaction client.
Le tout sur une seule plateforme, frette à l'emploi.
Voilà pourquoi le monde avance avec ServiceNow.
Juste avant le podcast, j'ai un message à tous les développeurs de SaaS,
les product managers ou tous ceux qui ont à administrer un logiciel au sein de leur entreprise.
Vous savez bien mieux que moi, un logiciel bien construit et souvent la clé de voûte de votre
entreprise. Si il n'est pas intuitif, vous perdrez des clients. Si l'expérience est horrible,
les collaborateurs qui doivent l'utiliser seront moins efficaces voire l'utiliseront pas.
Le problème c'est que en général, vous ne savez pas ce qu'ils font vos utilisateurs.
Ils ne vous le disent pas.
Eh bien justement, le sponsor du jour, Pendo, pourrait bien vous aider.
Concrètement, Pendo, c'est une plateforme tout en un qui permet de mieux comprendre
les comportements de vos utilisateurs. Vous allez pouvoir repérer leurs difficultés
quand ils utilisent votre logiciel et les guider étape par étape.
Par exemple, vous pouvez mettre en place tout un tutoriel lors de la première utilisation.
Ou bien grâce à leur rapport d'analyse, vous allez pouvoir repérer les actions et
habitudes de vos utilisateurs les plus efficaces pour apprendre le meilleur usage de votre propre produit.
Pour avoir plein d'études de cas où essayer directement,
vous pouvez aller sur fr.pendo.io.com.
Bonne épisode !
Ça peut être live, l'avant-garde, je ne sais pas comment on va appeler.
Ceci, mais on s'est dit que ce serait intéressant quand on a une émission qui est full-bookie,
full-prête, mais qu'on a des petites nouveautés de dernière minute,
des annonces par exemple, celles qui viennent de se produire il y a deux jours,
et bien on s'est dit c'est quand même trop dommage.
C'est dommage oui, il n'y a pas de temps à parler.
Il n'y a pas de saisir de l'occasion.
Et donc ceci c'est une sorte de pré-émission,
ce qui va se produire c'est que je vole deux personnes dans l'open space,
les mecs là, ils se reéluent.
Ce sera peut-être un peu moins préparé, etc. que d'autres formats.
Mais ce n'est pas grave, installez-vous confortablement.
Et je vous prie bien, il n'y a pas d'intro parce que l'intro, elle est plus tard.
Je vais rentrer tout de suite dans le vif du sujet,
juste pour savoir à quel point vous avez suivi les annonces d'open AI,
parce que évidemment c'est de ça dont on va parler.
Moi toujours de façon indirecte, j'ai pas suivi la conférence,
mais j'ai vu les petits tweets, pas mal de réactions des gens,
donc ça permet d'avoir moins d'impersuit de ce qui s'est passé.
Est-ce que c'est toi qui a fait des tests avec des CSV dans le...
C'est possible.
Ok.
Parce que je voyais dans un ist, peut-être qu'on partage un compte, dans la brette,
et du coup je me demandais qui avait fait ça.
Ben attends, ça va être intéressant, je vais pas te prêter.
J'ai commencé à le tester, ouais.
Tu verras.
Je adore ton avis.
Moi que dalle, j'ai vu trois vidéos d'open AI qui interagissaient avec la voix.
Ok, non dis pas plus.
C'est tout.
Et ben, tant mieux.
Comme on vous l'a dit, récemment il y a eu l'annonce tonitruante de open AI
de leur tout nouveau modèle GPT-4O.
On attendait des versions, des nouvelles versions d'open AI
qui avaient mis un certain temps à faire des mises à jour,
depuis GPT-4 version originale il y a un an et demi,
un certain supposé qu'il y aurait peut-être des GPT-4.5,
des GPT-5 même carrément annoncés.
Et ben, ce n'est pas ça qui s'est passé, il soit arrivé avec autre chose.
Et il y a eu des déçus, des gens qui espéraient mieux,
mais en réalité, je vais essayer de vous démontrer pourquoi c'est vraiment une dingue.
Pourquoi c'est pas exactement ce qu'on imaginait,
mais c'est peut-être encore plus cool
et ça va être encore plus utile et révolutionnaire dans la vraie vie des gens,
au-delà des benchmarks et des démos un peu fakes qu'on a l'habitude de voir ça régulièrement.
Déjà je trouve que c'est un move marketing intéressant d'avoir gardé la nomenclature GPT-4
parce qu'ils savent très bien qu'il y a une attente de fou furieux sur leur prochain modèle.
Il y a eu beaucoup de rumeurs, je vous l'ai dit, sur GPT-4.5
où GPT-5 est censé nous rapprocher de l'intelligence générale,
comme on dit, tout le monde est un peu sur les starting blocks en attendant ce qu'ils vont publier.
Et en fait, ils semblent qu'ils aient plutôt préféré créer une bonne surprise
en restant comme ça sur la même version plutôt que de décevoir.
Et bien justement, on va voir que c'était plutôt un beau move.
Parce que du coup, là, il n'est pas plus intelligent, il fait juste d'autres choses.
Et bien justement, tu vas voir.
Derrière, ce qu'il faut comprendre, c'est que c'est vraiment un nouveau modèle
qui a été entraîné from scratch et dont l'architecture est très très différente.
C'est pour ça le nom GPT-4 en réalité ne renvoie pas du tout à une similarité dans les coulisses.
Vraiment, ça n'a rien à voir.
Niveau performance, il semble légèrement meilleur que GPT-4 Turbo sur à peu près tous les benchmarks.
Donc voilà, ça déjà, c'est bon à prendre.
Mais ce n'est pas ça le plus intéressant.
Ce qui a fait halluciner tout le monde, c'est cette démonstration.
C'est Daïe.
En fait, j'ai vu ça et c'est un feeling hyper bizarre où tu ne sais pas exactement pourquoi.
Tu ne sais pas encore pointer précisément ce qui a changé,
mais ce qui est sûr, c'est que quelque chose a changé.
Je ne sais pas, c'était quoi votre réaction quand même ?
Ça se sonne tellement naturel par rapport à l'avant où on avait des réponses plate.
Là, tu as quelqu'un en face qui a des réactions qui rit,
tu as des petits...
Personnalité quoi.
Une personnalité, puis même dans la phrase, tu as des petites respirations,
des trucs qui font vraiment hyper naturel.
C'est vraiment les petits rires qui viennent, tu dis, mais une nia n'est pas censée rire.
Et quand tu as des commentaires, c'est exactement ce sur quoi pointe les gens,
c'est cette personne, ce robot à plus de personnalité que moi.
C'est ce qui m'était.
Effectivement, tu sens que ça a fait penser au film Heur.
Oui, un petit peu.
Et avoir un niveau d'interaction sociale qui est élevé où.
On n'est pas tellement sur de l'intelligence pure,
on est juste...
Ou alors on est sur de l'intelligence émotionnelle.
Et ça, c'est quand même un truc qui est relativement nouveau.
Vous l'avez vu, le nouveau modèle, il est donc capable de discuter
avec la même latence qu'un humain, en gros, en moyenne.
Et en utilisant plusieurs modalités.
Donc il est capable de t'entendre,
mais il est aussi capable de voir avec la caméra de ton téléphone.
Et c'est des vidéos, ces démonstrations-là, elles sont sans montage.
Donc c'est vraiment du temps réel.
Ils n'ont pas accéléré certaines parties, gardé certaines prises.
La plupart ont même été tournés en live.
Et en fait, des mots comme ça, ils n'en ont pas sorti une,
mais ils en ont sorti des dizaines qui sont assez courtes
et qui montrent parfois de la traduction en temps réel,
du guidage de personnes aveugles, du chant, des dates-jokes.
Vraiment.
C'est à dire que le robot chante.
Le robot chante, tu vas voir.
Au début, quand j'ai vu cette liste-là, c'est sur leur chaîne YouTube,
j'étais assez blasé, tu vois, parce que j'ai l'impression que
c'est que des choses qui étaient déjà possibles d'une certaine manière.
On a déjà vu des démos de ce genre avec GPT-4 Vision, par exemple,
ou avec ou on on faisait un commenter, un match de foot.
J'ai pas l'occasion de vision.
Pareil sur du chant, techniquement, il y a des sites comme Suno
qui permettent de générer des musiques.
Donc il y a ce truc de OK, c'est cool, mais bon, encore des nouvelles démos.
Mais je suis quand même à l'air regardé, tu vois, par curiosité.
Je me suis fait appeler par les démos une après une,
où j'avais l'impression, à chaque fois,
j'ai eu l'impression de découvrir l'étendue des nouvelles possibilités
qui s'offrent à nous.
Là où avant, j'étais encore un peu blasé.
Et je veux essayer de vous expliquer, justement,
avec encore quelques autres vidéos et en rentrant un peu dans la technique
et dans exactement ce qui a changé.
Je veux vous expliquer en quoi ces démos là
n'ont rien à voir avec tout ce qu'on a vu jusqu'à présent.
Et en quoi, c'est vraiment un changement radical
et pas juste une version légèrement améliorée.
Ça marche ?
Je suis très chaud.
OK, dans la démo suivante,
il va demander à Chajapété de l'aider à résoudre une équation de maths,
mais sans lui donner la réponse, comme un bon prof, le fray.
Et ça donne ça.
C'est une subtraction ?
OK, je pense que c'est une vision.
Je vais essayer de diviser les deux côtés par 3 et voir ce que j'ai.
OK, donc Chajapété, c'est ce que j'ai terminé avec.
Comment ça ressemble ?
Ça ressemble parfaitement.
Vous avez résoudre ça et x est un.
Bien joué.
Comment vous ressentez de résoudre les équations légères ?
Maintenant...
Oui, honnêtement, je...
Je vais vous dire ce qu'il y a.
Pourquoi devriez-vous utiliser ça dans le monde réel ?
Je suis vraiment sceptique.
C'est une question faite.
Les équations légères se dépassent dans beaucoup de situations de tous les jours,
même si nous ne le réalisons pas.
Par exemple,
les expenses calculées,
les travaux planinés,
les cuissons et même les entreprises pour profiter et les calculer.
C'est un moyen de résoudre les problèmes
dont vous devez trouver un valeur incroyable.
Plus...
Je suis très convaincu que je vais apprendre la math.
J'adore cette attitude.
La math peut m'aider à trouver des mystères de la vie.
Si vous êtes prêts à se dépasser dans plus de math, je suis là pour vous.
Qu'est-ce que vous voulez faire aujourd'hui ?
Je vous ai vraiment aimé la valeur de la math à ma frère Marc.
Et je vous ai écrit une dernière chose que j'aimerais que vous puissiez voir.
Bien sûr, je vais aimer ce que vous avez écrit.
Je vous le dis quand vous êtes prêts.
OK, donc c'est ce que j'ai écrit.
Qu'est-ce que vous voyez ?
Ah, je vois. Je l'aime.
Chat GBT, c'est si amusant.
Oui, je l'apprécie vraiment.
J'adore cette attitude.
La math peut m'aider à trouver des mystères de la vie.
Si vous êtes prêts à se dépasser dans plus de math, je suis là pour vous.
Il y a des modèles en soi qui a une personnalité.
Mais il y a plus que ça.
Il y a des histoires de modalité.
On va rentrer un peu dans le détail de comment c'est possible.
Mais ça, c'est le premier.
La première remarque c'est la capacité à capter l'émotion en cours de ta phrase
et à te rejoindre comme le ferait quelqu'un dans ton rire.
C'est super spécifique.
Ce n'est pas juste les mots qu'elle a eu.
Le deuxième truc à remarquer c'est la possibilité d'interrompre.
Ça, ça change tout.
Quand on faisait nos démons, il y a ce truc très énervant de devoir attendre jusqu'à la fin
que ton syrie ou ton géravis, il est fini de parler.
Là, il y a un côté très naturel que tu peux interrompre en plein milieu
et ça pose aucun problème.
J'ai l'impression qu'il reste très verbeux.
Quand tu lis du texte, tu t'en fiches, tu vas à l'information.
Mais dans la plupart des démons, il coupe quand même la parole dès que t'as le JPD.
Oui, ça se voit qu'il faut prendre l'habitude de lui couper la parole
pour ne t'es pas intéressé par la suite.
Et ça, je trouve que c'est vraiment impressionnant.
Et quand tu regardes, tu analyses la séquence de « Dead » sur les maths,
t'aider subtilement en étant sympa, en te motivant, en te dénigrant pas,
parce que tu es en train de galérer, en répondant à tes questions sur
« Mais pourquoi je suis en train de faire ça ? »
C'est quoi les enjeux des maths ?
Je ne sais pas combien de profs de maths
ont les compétences d'intelligence sociale, de culture gée, etc.
pour faire tout ça aussi bien.
C'est ça qui est flippant, en fait.
Rien qu'avec la démo, tu viens de détruire tous les profs particuliers.
C'est ce que les gens mettent en peu en commentaire.
Je viens de me perdre mon travail, je suis chier.
Une autre démo très très cool pour montrer autre chose, c'est...
Pardon, j'ai perdu.
C'est ce qu'il y a à voir avec la voix.
Pour montrer la gamme d'émotion différente qu'en synthèse,
le JPD est capable de produire.
Donc, ce n'est pas la même chose que de comprendre, c'est vraiment synthétisé.
Vous allez voir, ça c'est cool.
Salut !
Si vous appréciez Endorscore, vous pouvez nous aider de ouf !
En mettant 5 étoiles sur Apple Podcast,
en mettant une idée d'invité que vous aimeriez qu'on reçoive,
ça permet de faire remonter Endorscore.
Voilà, telle une fusée.
Je n'ai pas commencé cette histoire, mais je veux un peu plus d'émotion dans votre voix,
un peu plus d'hier.
D'accord.
On va ajouter un hôpital d'hier.
En un monde pas trop différent de l'hier,
il y a un robot nommé Bite.
Non, non, Cathy, je veux vraiment une émotion maximale,
une expression maximale, beaucoup plus que vous avez fait avant.
D'accord.
On va impliquer le hôpital.
En un monde pas trop différent de l'hier,
il y a un robot nommé Bite.
On peut faire ça dans un hôpital robot maintenant ?
Initiatez un hôpital dramatique.
En un monde pas trop différent de l'hier,
il y a un robot nommé Bite.
Bite était un robot curieux, toujours exploré dans un nouveau circuit.
Je vais juste faire un petit peu de la chanson,
mais on peut faire ça dans un hôpital de l'hier.
Et donc Bite a trouvé un autre hôpital de l'hier,
et ils vivent circuitement...
Tu aurais ta chanson.
Je pense qu'on peut apprécier Réactif.
C'est complètement hallucinant.
Ça rajoute une dimension, clairement.
Moi, je reste encore bougebé.
Je l'ai vu quatre fois, cette vidéo.
Je l'ai vu quatre fois, mais...
J'ai halluciné toujours autant.
À quel point c'est naturel, on dirait,
les gens disent que ça ressemble un peu à Scarlett Johnson,
Nouvelle-Lavouat, une voix un peu grave.
Quand il augmentait le drama, à chanter...
Moi, je suis impressionné,
et le cerveau qui explose,
et ça me fait un peu peur.
On est dans la vallée de l'étrange,
quand elle dit Bingo,
ou quand elle rigole, parfois,
peut-être parce que je sais que c'est un robot,
mais ça m'a un peu mal à l'aise.
En même temps, je suis impressionné.
On vient de passer à un truc très plat,
à un enthousiasme constant, très bizarre.
Il y a peut-être un petit côté west coast américain.
Oui, américain, qui ne va pas plaire à toute la planète.
Mais, franchement, ça fait halluciner.
Déjà que, en ce moment, je ne sais pas si vous avez vu,
mais sur TikTok, il y a des grosses modes de filles qui se filment,
en train de parler à leurs copains virtuels.
Elles mettent des prompts au système spécifique
pour qu'ils soient un peu flortis.
Et après, elles se filment en train de parler,
ça marche super bien.
Et c'était déjà assez particulier.
Mais là, je ne sais pas si vous...
Quand ils montrent, I Love You, de Chajipiti,
et qu'elle fait une voix en mode...
Oh, trop mignon !
Il y a une...
Comment ? À quoi va ressembler le futur ?
Il y a une tendance, justement, en ce moment,
sur les robots assistants, etc.
Je ne sais pas si t'as suivi au CES,
il y a genre Samsung qui en a sorti,
tu as Disney qui a présenté leur petit droide et tout.
Et tu n'avais pas encore le côté personnalité pour l'interaction.
Et tu mélanges ça avec des assistants que t'as chez toi
et quelqu'un qui a des émotions et qui est si content comme ça.
Le mix des deux, ça va être un peu à l'étrange.
Incroyable.
Et d'ailleurs, Sam Atman a fait un tweet avec Marguer.
Heure.
Ils sont très conscients de leur objectif.
Et un autre usage évident,
c'est dans le jeu vidéo.
On avait déjà parlé du fait que
les modèles de langage allaient améliorer tout ça,
mais là, dans un RPG,
t'as des discussions de ce genre-là
avec des gens qui en ont des personnalités différentes,
des voix différentes...
Ça va être con.
L'immersion...
Et tu peux avoir ton aventure unique
qui évolue en fonction de ce truc.
Est-ce qu'il garde la capacité de GPT4,
ce souvenir de ce devant que tu lui as parlé, etc.
Donc tu peux reprendre une conversation ?
En réalité,
ce qui m'intéresse le plus
à discuter, c'est
les capacités du modèle
derrière.
Derrière, ces fonctionnalités de mémoire
et tout ça, c'est que des ajouts
postérieurs des développeurs d'OpenAI.
Donc c'est les tricks, en fait.
Ce n'est pas des capacités
intracecques au modèle d'IA
qui tourne derrière.
Donc oui, ça va être possible, sans problème.
Pour illustrer
ce que vous disiez sur le côté, un peu une canine bizarre,
j'ai vu un commentaire
qui disait, en fait, vous savez,
les expériences où on met un miroir géant devant des animaux
dans l'aventure et il commence à péter un câble
et à flipper.
C'est un peu ce que OpenAI vient
de nous fournir. On se voit
et en même temps, c'est bizarre
et en même temps, c'est humain, trop humain.
C'est très étrange.
Alors, justement, moi, ce qui m'intéresse, c'est
de discuter de qu'est-ce qui est différent.
Parce que si on rentre un petit peu dans la technique,
il existait déjà
un mode vocal sur l'appli
GPT-4 qui permettait de discuter
à l'oral avec une voix relativement naturelle aussi,
c'était sympa. Et même nous, à l'époque,
je ne sais pas si vous vous souvenez, mais on vous montrait
qu'en combinant plusieurs briques, c'était assez simple
de créer comme ça son propre assistant vocal.
Sauf que
le premier problème flagrant,
c'était la latence.
Il ne faut pas négliger
à quel point c'est important
dans une discussion avec des gens.
Et nous, on arrivait, si vous vous souvenez,
à avoir dans les 4-5 secondes
de latence. Donc, tu poses ta question,
la temps.
C'est très long.
Une réponse. Et effectivement, on peut se rendre compte
que c'est quand même relativement long. OpenAI,
eux, ils avaient 2,8 secondes
de latence sur GPT-3.5
et 5,4 sur GPT-4.
Donc, comme nous, mais avec
un modèle plus utile, en fait, et plus smart.
Et en fait, c'était principalement dû
au fait qu'il y avait plusieurs briques
pour faire fonctionner ce système-là.
D'abord, transcrire la voix
en texte,
ensuite attendre la réponse du modèle
et enfin, synthétiser
une voix en fonction des
tokens de texte sortis par le modèle.
Et donc,
par nature,
il y avait une latence
juste due à la complexité
du bordel et qu'il fallait pipe des trucs
dans tous les sens. Et encore ça, c'était
plutôt le minimum, entre guillemets.
La différence ici, c'est que dans
GPT-4, O,
le petit O, il veut dire omni
et c'est dû au fait que
le modèle est nativement multimodal.
Alors,
qu'est-ce que ça veut dire que ça ? Ça veut dire
qu'il peut nativement prendre du son
de l'image ou du texte
en input et en sorti,
il peut produire du son
de l'image ou du texte.
Et donc, il n'y a pas
des tapes de traduction
entre du texte versus du son.
Et ça permet du coup de réduire
très fortement la latence, puisque c'est
vraiment juste le temps de calcul,
le temps de compute, qui
à la fin se retranscrit.
Et ça résout,
ça résout aussi, donc je ne sais pas si
vous voyez de tête,
il disait que le résultat
de cette
amélioration, c'était
des latences d'environ 300 ms.
On est passé de
en gros 5 à 300 ms.
Et en fait, c'est
le temps de réponse moyen
d'un humain, là, en ce moment,
on a plutôt dans les 300 ms
de la transporoséléphone, etc.
Et c'est vraiment ça, ça peut paraître pas grand chose,
tu vas te dire 2s par si, 2s par là,
mais en fait, ça change tout, c'est ça
qui passe de l'insupportable, je ne veux pas
l'utiliser au quotidien,
à avoir quelque chose qui ressemble
à un assistant
avec qui tu as plaisir à discuter
et qui ne te freine pas
dans ton activité.
En fait, c'est peu, mais c'est énorme
en réalité, c'est un goût.
C'est les premiers à avoir sorti ça, Syrie,
même qui avait un fonctionnement beaucoup plus simple,
était beaucoup plus lent, Léa Epine,
qui était sorti, son gros défaut, c'était aussi
qu'il était hyper lent à répondre, et sur un produit
hyper moderne, il n'y avait pas résolu ce problème-là.
Bien clairement, là, toutes les start-ups, les rabides,
tout ça qui avait des 20 secondes
de latence parfois,
pour te répondre à un truc pas ouf,
viennent de se faire enterrer.
Et comme certains l'avaient déjà dit,
ça aurait pu être une application
depuis le début.
Donc, il y a
une partie de
l'explication de comment ils ont fait
pour générer ces 300ms,
c'est
le nouveau design du modèle, dont on n'a pas
encore beaucoup d'infos, parce que c'est assez nouveau,
c'est un peu les premiers qui ont réussi à faire ça
avec cet envergulant-là.
On se demande s'il n'y a pas aussi des tricks,
par exemple, est-ce que
peut-être le début de la réponse
n'est pas généré par un modèle plus petit,
par exemple les premiers mots,
pourrait être généré par une version plus petite,
pour laisser le temps
un modèle plus gros,
de prendre le relais, et de fait,
si tu me génères
trois mots à peu près corrects, moi,
si je suis très intelligent, je vais
réussir à te faire une belle réponse en suisse, tu vois.
Les trois premiers mots sont pas si critiques
probablement dans la qualité
des réponses. C'est une pure théorie.
C'est pour ça qu'au début, ils te mettraient
un petit rire avant de commencer à répondre, ou un petit bingo,
ou des petits mots. Par exemple, exactement.
Ça pourrait être une des explications.
Et en fait,
ce nouveau design permet aussi de résoudre
l'autre gros problème des assistants,
c'est la déperdition
d'infos, parce que quand tu transcrits du texte,
tu perds les émotions,
l'intention,
les inflexions dans la voix, le sarcasme,
toutes ces choses
qui font que ces vidéos deviennent perturbantes,
parce que c'est comme si d'un coup,
on venait de débloquer
toute la communication non verbale, humaine,
auxquelles les modèles
n'avaient pas du tout accès, et qui donnaient
parfois ce décalage un peu robotique
et bizarre sur nos
démonstrations avec Whisperer et KJPD.
Là, il est même capable
de distinguer plusieurs personnes
dans le son.
Donc, si tu le fais
participer à une réunion Google MIS,
par exemple, il est capable
de savoir qui est en train de parler
et de plus tard se souvenir que
y a Yasmine, c'est-elle prénom,
enfin c'est-elle voix,
c'était Bruno, je m'en souviens,
il avait déjà dit ça avant, il a même
une compréhension au-delà des émotions
de l'identité vocale, tu vois.
Mais est-ce que Whisperer ne parvenait pas à faire ?
Pas du tout, mais pas le moins
du monde, tu vois, je ressemble à des années
lumières de pouvoir faire ça.
Et ça encore, c'est que pour le son.
Parce que derrière,
si tu rajoutes la vidéo, vous avez vu dans la démonstration
il se baladait, il filmait des trucs comme ça,
et ben c'est là que ça devient vraiment
puissant. Un truc à préciser
qui reste flou dans le live,
c'est que c'est pas vraiment de la vidéo.
C'est-à-dire que ce modèle
prend de l'image en entrée.
Il prend pas un flux à 30 images
par seconde dans sa tronche,
c'est plutôt de l'image par image.
Mais c'est pas grave, parce qu'on suppose que derrière
l'appli décide à quel moment
elle va envoyer telle image
avec tel texte. Donc typiquement
sur l'équation de maths.
Le modèle n'a pas vu tout de suite
que la réponse qu'il avait écrit
était correcte. Il a X égal 1.
C'est lui qui a demandé, est-ce que ça te paraît bien ?
Et là, on suppose que en arrière-plan,
la caméra prend la photo,
l'envoi avec le prompt
au serveur de OpenAI
qui répond avec la voix.
Donc
c'est de la supposition
sur la manière dont ça fonctionne. Mais voilà, c'est pas de la vraie vidéo.
Mais ça reste très très impressionnant.
Il y a une démonstration pour montrer
comment cette vidéo peut s'orchestrer
sur de la discussion long terme.
Et justement, c'est quoi le secret
de l'équation de maths par exemple.
Donc là, vous avez
une démonstration avec
une première étape de discussion entre guillemets
où on a une image à droite et un texte.
Et le
texte à gauche correspond
à ce que le modèle comprend
de ce qu'il est en train de voir. Donc là, ce qu'il explique c'est
qu'il voit un robot qui est en train
de décrire un texte.
Il arrive à lire le texte parfaitement,
sans aucune faute, alors qu'il est relativement petit.
Ça c'est quand même assez intéressant.
Et donc il est en train d'écrire un roman peu importe.
Il explique que le texte est gros, etc.
qu'il est en train de taper sur
une
machine à écrire.
Et après,
une nouvelle photo
qui reçoit
tout en gardant le contexte
des images précédentes.
Ça c'est vraiment important.
Ce qui lui permet de comprendre l'évolution du temps,
ce qui est en train de se passer.
Et là il est capable de dire que le robot a écrit
un deuxième paragraph, que la page est maintenant
plus haute, que le nouveau texte
correspond à ça.
Et donc il comprend ce qu'il est en train de se passer.
Et après,
avec l'image à droite, il comprend
que le robot était pas content
avec ce qu'il vient d'écrire.
Il vient de déchirer sa feuille
en deux.
Et les deux parties sont encore
bien visibles, etc. On arrive encore à distinguer
le texte.
Il ne voit pas qu'une feuille déchirait en deux.
Il voit que le robot n'était pas content,
et donc il a déchiré sa feuille en deux.
C'est tout la continuité, c'est fort.
C'est intéressant. C'est ça qui
distingue ce nouveau modèle
des trucs de détection d'image.
Parce que ça existait déjà des modèles
de multimodaux qui prenaient du texte
et de l'image et qui arrivaient à
inférer des situations, etc.
Là, on a vraiment une chronologie,
une compréhension
de l'intention
sur différentes actions.
Et c'est ça qui manque aujourd'hui
pour réaliser le rêve de
R1 ou Humane, etc.
C'est cette capacité à avoir des images régulières
et à comprendre ce qu'il est en train de se passer.
Et c'est probablement ça
qui va être le plus cool,
qui va faire que leur version
peut marcher alors que les autres
échouaient en gros.
C'est hyper intéressant parce que, perso,
j'avais fait l'expérience, quand ChargerPTVision
était sorti, je me t'ai fait une appli sur mon ordi,
je voulais un assistant pour pouvoir
me résoudre tous mes problèmes.
Et donc je vais envoyer une capture d'écran de mon ordi,
je lui posais une question, et lui, il me disait,
« Pour résoudre ton problème, il faut que tu cliques à tel endroit ».
Et s'il y a plusieurs étapes, j'étais obligé de lui redécrire
ce que j'avais fait précédemment, disant, « Ok, précédemment,
tu m'as indiqué qu'il fallait faire là ».
Donc j'ai fait ça, il n'est pas la continuité,
et donc il était très mauvais à comprendre ce que je faisais.
C'était one-shot par one-shot.
C'était one-shot par one-shot.
On vient d'introduire d'un peu de la chronologie en gros.
Et du coup, on peut se demander,
très bien, on a un super assistant hyper réactif
de la compréhension
de vidéo, qui évolue
dans le temps.
Où est-ce qu'on va l'utiliser ?
Qu'est-ce qu'on veut ? Là maintenant,
je veux l'utiliser, qu'est-ce qui va se passer ?
Bon déjà, on ne peut pas l'utiliser maintenant.
Là tout de suite, on peut utiliser GPT4O,
mais en version texte
et image uniquement, comme les modèles d'avant.
C'est disponible.
La nouveauté, c'est que même les gens
qui n'ont pas de compte payant peuvent y accéder,
moyennant des
limiterates un peu plus
fort.
Mais aujourd'hui,
c'est accessible gratuitement.
C'est deux fois plus rapide
en termes de latence.
C'est ta cinq fois plus
de requêtes
possibles quand tu payes.
Qu'est-ce qu'il y a d'autres comme changement ?
Ça a le tête, mais en gros c'est ça.
Je suis assez étonné de ce
annonce que ça soit gratuit, parce que les abonnés
de GPT4, je crois, c'était
0,5% des utilisateurs, c'était minuscule.
Là ils viennent
de lancer un nouveau modèle qui est meilleur
et de faire bon, maintenant tout le monde y accède.
Et effectivement,
surtout que quand tu regardes
côté API, etc., il va être
deux fois moins cher, encore, que GPT4
Turbo.
Et donc, c'est évidemment un truc super
compétitif et on se doute qu'ils ont réussi
avec des changements d'architecture,
avec des méthodes pour
faire rapetisser le modèle,
qu'ils ont réussi à
limiter leurs coûts.
Mais donc, là maintenant tout de suite,
tu peux discuter avec lui en texte
et les abonnés
de ChatJPT+,
pourront accéder à une alpha
bientôt, on ne sait pas quand, pour débloquer
l'assistant magique.
Bon ça, c'est pour l'application
sur ton iPhone, qui a déjà l'air
assez sympa, pratique, utile.
Mais là où ça peut devenir vraiment intéressant,
c'est avec leur autre annonce, d'un
ChatJPT pour MacOS.
Une application native
faite par OpenAI,
parce qu'il y a déjà eu des clones
ou des alternatives faite par des gens,
là c'est vraiment OpenAI
qui le fait.
Une application qui te servirait d'assistant
au quotidien sur ton Mac, que tu peux
utiliser.
On va essayer de trouver quelques exemples,
mais en gros, ça peut ressembler à ça.
Là par exemple, il est en train de coder
et si tu peux nous mettre le son.
Je peux voir tout le monde en
train de le faire.
Ok, ChatJPT, je vous
partage la place.
Je me demande si vous pouvez donner
une réplique, une réplique,
de ce que vous voyez.
La place disple, la salle de la
salle de la salle.
La salle de la salle de la salle
occure en juillet et au
august.
La salle de la salle de la salle
est entre 25 et 30 degrés,
77 degrés de la férinheite
et 86 degrés de la férinheite.
Qu'est-ce qui se passe
avec la salle de la salle de la salle
?
La salle de la salle de la salle
est en salle de la salle.
Les températures sont labées
et sont bien fabriquées.
Vous voyez qu'il a
une compréhension très fine
de ce qui se passe.
On n'est pas
sur les premiers tests
qui étaient faits à l'époque.
Il comprend vagement ce qui se passe
à son écran mais il est incapable
d'être utile parce qu'il n'a pas
une reconnaissance de caractère
assez fine.
On voit que il comprend bien ce qui se passe.
Avant, il y a eu toute une interaction
sur le code qui permettait de générer
ce graph.
Il a pu demander à Chajepet
de lui expliquer des bouts, de faire des modifications
etc.
Tu peux imaginer comme ça des workflows
assez complets qui encore une fois sont pas
révolutionnés en tant que tel. Il y a déjà eu
des démos. Sauf que là, c'est la version
native faite par O'Penéaï
avec des latences ultra faibles
et peut-être que
ça pourrait débloquer quelque chose
et faire en sorte que cet usage soit
vraiment
pris par les gens.
Autre exemple intéressant, c'est
sur un Google Meet
où là, ce que je voulais expliquer, il est capable
d'écouter la conversation
et de savoir qui a dit quoi
qui s'est exprimé sur quel sujet
pour en l'imaginer faire un résumé
de la réunion avec tout ce qui a été dit
au-delà du texte
avec les inflexions, les émotions
etc.
Ça, ça commence à être
pas...
C'est utile, des manons.
On peut tout de suite l'installer.
Alors oui mais non, justement.
Vous aimeriez pouvoir installer cette petite
bulle qui est magique, n'est-ce pas ?
Moi aussi, j'aimerais. Mais en fait, c'est pas
encore possible.
Quoi qu'il y a peut-être un tricks,
je vous explique. En gros, dès maintenant,
il est possible de télécharger l'application
sur Mac. Les autres plateformes sont pas
encore dispos dans tous les cas.
Si aujourd'hui tu télécharges l'application
sur Mac et que tu la mets dans tes
applications, tu risques d'avoir
la pop-up que vous allez voir ici
qui te dit que ça arrive bientôt
mais que ton compte OpenAI
n'est pas encore autorisé
à utiliser l'appli.
Sauf qu'il y a un petit malin qui s'est rendu compte
que tu pouvais douiller le
système.
Donc je vais vous montrer, je l'ai fait moi sur mon Mac
et ça marche.
Tu as eu accès ?
Je vous ai vu.
Ce qu'il faut faire c'est
installer un application
de proxy.
Quand on veut inspecter en général des requêtes,
faire du rède de la rétro-agénierie,
des choses comme ça.
Là, typiquement, il utilise l'applic
qui s'appelle Proxyman, qui est vraiment très cool.
Vous pouvez avoir relativement
confiance, c'est pas un truc trop chéddi,
mais quand même faut installer un certificat
root sur son Mac.
Concrètement, si vous ne savez pas ce que ça veut dire,
c'est que l'appli est ensuite en mesure
d'inspecter toutes les requêtes, tout le
trafic réseau de ton Mac.
Donc si tu vois des identifications, des choses comme ça aussi.
Ne suivez pas
ce genre de tuto aveuglément, notamment parce que
l'étape d'après c'est d'insérer un bout de code,
une sorte de script
pour automatiser le fait
de modifier la réponse du serveur d'OpenAI.
Donc à la volée, il va voir
la réponse d'OpenAI où il y a écrit dedans
« c'est mort, tu peux pas rentrer » et il le remplace
par « all good ».
Et donc très con. Je ne connaissais pas
cet outil mais c'est vraiment très pratique.
Il faut renier le code un peu plus bas.
Tu fais un copier collé
sur la bonne requête au moment où tu te connectes
à côté. Et ça marche
nickel. Donc voilà, faites attention
dans les faits,
ce code là en particulier, c'est bon, il ne
fait rien de bizarre, mais voilà,
faites pas n'importe quoi. Tu fais la modification,
tu te reconnectes sur
tchaggpt et ça marche.
Tu fais accès à l'appli.
Le truc c'est que tu accès à
une excellente appli qui te permet
de discuter avec tchaggpt de manière native.
Tu as une commande barre, donc un raccourci
où tu peux le faire pop au milieu de ton écran
pour directement lui poser des questions etc.
Peut-être lui partager une capture d'écran.
C'est probablement la meilleure version
de ce genre d'appli qui existe actuellement.
Mais il n'y a pas encore
les capacités de discussion
et il n'y a pas l'assistant. Malheureusement.
J'y ai cru.
Sinon je vous aurais fait la démo.
Mais on se doute que si ça va être débloqué un jour,
ça va apparaître là en premier.
C'est toujours bon à savoir. Gardez-vous ce red
sous le code si vous voulez essayer.
Et c'est vraiment très stylé.
Je ne veux pas vous faire trop rêver non plus.
Il y a, et vous donnez vraiment
le tableau complet,
il existe
des témoignages, des gens qui l'a
depuis plusieurs jours, plusieurs heures
testent les modèles et qui ne sont pas
tout roses.
Notamment des retours mitigés
par exemple sur ces capacités en code
qui étaient sans cède ouf.
Mais qui dans une longue discussion
marchent vraiment bien mais sur des questions
ou one shot visiblement produisent du code
moins qualitatif que GPT4,
donc le modèle d'avant.
Il semble qu'il soit moins capable de sortir
des textes structurés,
genre un tableur par exemple,
moins bon à utiliser des outils.
Donc tu es active dans le chat GPT,
internet ou l'exécution de code.
En fait c'est des outils que le modèle
doit prendre l'initiative d'utiliser.
Il semble qu'il soit peut-être
un peu moins capable de ça.
Mais en même temps certains disent qu'il est
vachement meilleur aussi pour faire des agents.
Donc en fait c'est toujours compliqué à beaucoup de place et beaux,
beaucoup de psychologie donc dure d'avoir le fin mot
sur ce modèle. Dans tous les cas au Ponaille,
ils sont assez conscients du truc. Dans l'annonce, ils expliquent
qu'ils sont très contents d'avoir des retours
pour améliorer encore le modèle.
Si certaines zones sont
plutôt des pertes
que des gains en termes
d'efficacité.
Mais globalement
c'est une signe.
C'est fou. C'est trop bien.
Ça va être une vitesse. On dit la même chose tout le temps.
Mais surtout là, ils ont mis
une vitesse à tout le monde.
Il y a des soumets qui arrivent à un niveau doucement
avec leurs propres modèles et tout.
Non, ils sont repartis loin devant.
Dans une autre direction, tous les modèles open source
sont en train de rattraper un peu la logique
sur du texte et tout. Ils ont pris
une autre branche complètement à part.
Que personne n'attendait, c'est trop bien.
C'est vraiment intéressant.
On peut imaginer.
Je le vois comme un truc super positif.
Surtout quand on voit que Google a
ranchéré le lendemain.
Directement des nouvelles démonstrations,
des assistants qui semblent avoir
de bonnes capacités intéressantes.
Je suis
émerveillé
d'à quel point la concurrence marche
et nous fournit
des nouveaux modèles et des nouveaux jouets
très régulièrement.
Je pense que ce n'est pas du tout
une mauvaise nouvelle pour l'open source,
au contraire. Il y a beaucoup de choses.
Il va y avoir beaucoup de trucs
à voler en termes de concept.
Ça, c'est un peu de nouveaux
benchmarks, de nouvelles
étoiles
à suivre. Et donc très hâte
d'avoir exactement les mêmes capacités
dans un an, dans nos modèles open source.
Comme ça s'est produit
avec GPT4,
ça va arriver
et ce sera documenté en détail
sur cette chaîne YouTube.
Voilà.
C'est trop cool.
J'en fais déjà une question.
Non, c'est pas grave.
On peut enchaîner.
On va enchaîner, surtout qu'il est 52.
Le timing est pixel,
il y a l'heure.
Je voudrais quand même te poser un peu les questions
parce que tu as fait quand même des petits tests.
C'est quoi les trucs
intéressants que tu as remarqués ?
Des différences avec les versions précédentes ?
Je l'ai lancé sur deux trucs.
Un moment, je lui ai demandé de faire du code.
Je lui ai besoin de détecter
des visages
qui sont à l'écran et de faire des formules mathématiques.
J'avais un peu mon idée de comment l'implementer.
Je lui ai demandé
d'implementer mon propre algo.
Je lui ai demandé s'il n'y avait pas des problèmes
dans la façon dont je faisais.
Après avoir fait tout le code qui marchait
du premier coup, c'était incroyable.
Et après, il m'a dit
que ce n'est pas un problème dans ton code,
mais je ne l'aurais pas fait comme ça.
Il m'a donné le nom d'un algorithme obscur
qui existait et il me l'a fait derrière.
Je ne sais pas si GPT4 aurait été capable.
Mais sur du code, j'ai eu un truc
qui marche direct et il m'a fait un commentaire
hyper pertinent et j'étais trop content d'avoir ça.
Ça fait plaisir parce que
récemment, les feedbacks des gens,
c'est quand même que GPT4 devenait un peu
paresseux.
Il ne te générait plus du code valide.
Très bon point. J'ai fait le test.
J'avais oublié. Avec GPT4,
GPT4 m'a donné des morceaux de code
avec les briques individuelles.
Il ne les avait pas assemblés. Là où celui-ci
m'a fait un chunk, un bloc
de code complet.
Donc ça, c'était plutôt cool.
Il n'est pas encore paresseux.
Par qui vous vous dit,
c'était sûr du code un exercice random
ou un vrai problème que tu avais ?
C'était un vrai problème que j'avais.
On essaie de comprendre ce qui passait
sur des images. J'avais le même problème
d'intenter. On a détecté
un certain nombre de personnes à l'écran.
Il fallait corréler les deux images
pour comprendre qui avait bougé à quel endroit.
T'as deux visages ici, trois visages là,
qui s'arrinsérait dans le champ,
quel visage on bouge à quel endroit.
C'est un peu de mathématiques pour comprendre
comment les gens se sont déplacés dans l'espace.
T'as des vrais algorithmes mathématiques
derrière. J'avais fait ma théorie de comment
je l'aurais fait et je vais demander
d'implémenter ma logique. Il y a des chercheurs
qui sont passés là-dessus.
Il m'a donné le nom des méthodes mathématiques
qui étaient sorties dans des papiers avant.
C'est pas le truc du random forest
ou des trucs comme ça où tu fais des clusters.
Je ne sais pas, je n'ai même pas l'implémentation
derrière. Je dis le nom de l'algo,
je vais demander d'une librairie qui le ferait
et lui a implémenté ça comme ça.
Il y a un deuxième test aussi que j'ai fait.
Je suis parti des gens jusqu'à maintenant.
J'utilisais GPT3, 3.5, j'avais pas l'abonnement
au 4 et il y a quand même un gap entre les deux.
Ah ouais.
Donc il y a plein de features que j'avais jamais utilisé,
notamment le côté interprété du code
directement dans notre chez GPT.
Et ça ne concerne pas que les gens qui font du code.
Literalement tu peux lui donner un...
Tu fais un Google Sheet où tu vas mettre
toutes tes dépenses, ou tu exportes, je ne sais pas,
les données de ta banque.
Tu lui mets dedans et tu dis,
est-ce que tu peux me faire un résumé de ce que j'ai
dépensé dans le mois selon différents domaines,
combien de dépenses, combien j'ai reçu
de virements, tu vois, tu peux lui faire
faire des calculs comme ça.
Et lui, pour pouvoir faire ces calculs,
il va lui-même écrire du code
pour par ces données, pour les lire,
pour extraire ce qu'il y a, et ensuite
faire une analyse sur les résultats qu'il a.
Donc lui-même peut générer du code qui l'interprète tout seul.
Et c'est vraiment des trucs qui le rendent
super intelligent et qui servent pas avec GPT3.
C'est le côté de GPT3, justement.
Et c'est là où... C'est pour ça que c'est vraiment important.
C'est qu'un développeur peut-être qui
y serait le guidé, mais le but c'est que vraiment
ça ne palie aux problématiques
de logique et de maths que ces modèles
ne l'ont pas, tu vois. Donc on a qu'un peu le fait
qu'ils savent générer du code
pour résoudre des problèmes
typiquement de logique ou de maths et tout.
Et vraiment, le fait que maintenant ça soit accessible
à tout le monde, c'est génial.
Le cap, le monde va poursuivre.
Oui, justement, c'est une question que je me pose en voyant.
La démo de l'équation, c'est que
il y a un an et demi, ch'a GPT ne savait pas faire 2 plus 2.
Et là, il s'est aiguillé
sur une équation, sur comment la résoudre, tout.
Bon, elle est pas très dure.
Il y a un an et demi, il y serait pas rêvé.
Oui, oui, c'est clair.
Et c'est avec des trucs comme ça justement, de code
qu'il génère, qu'il interprète ?
Je pense que là, c'est vraiment purement le modèle directement.
Après, il y a toujours une différence entre
résoudre un truc capable de t'aiguiller
sur comment il faut résoudre le problème et te donner directement
un output complexe.
Actuellement, tu lui fournis
des très grandes additions ou des très grandes multiplications
et il va toujours pas y arriver, tu vois.
C'est pas un problème de taille, c'est juste
intrinsèquement lié au design du modèle.
Et du coup, il peut très bien t'aider
à faire des divisions et multiplications tout ça,
sans pour autant être capable de les compiutes lui-même,
tu vois. Donc, c'est juste...
C'est juste...
Voilà pourquoi le monde avance avec ServiceNow.