Les principales nouveautés à retenir de ChatGPT

Durée: 46m32s

Date de sortie: 14/11/2023

Découvrez les offres d'emploi d'Experis : https://experisfrance.fr/emplois/?utm_source=Underscore&utm_medium=podcast&utm_campaign=campagne_360

Merci à eux de nous faire confiance dans le cadre de cette collaboration commerciale !

Il y a quelques jours, la société OpenAI, à l’origine de ChatGPT, a fait le plein d’annonces prometteuses. Michaël fait le point sur les meilleures nouveautés. Et ça n’est pas forcément les plus populaires qu’il lui ont tapées dans l’oeil !

Pensez à mettre 5 étoiles pour soutenir l’émission !

Écriture : Micode

Hébergé par Acast. Visitez acast.com/privacy pour plus d'informations.

Ce que j'entends le plus souvent de la part des recruteurs c'est
« Mes pierres, il y a des millions de candidats potentiels sur LinkedIn, j'ai pas le temps, j'ai déjà des millions de réunions, des millions de mails »
Alors je leur réponds, avec LinkedIn Recruteurs c'est simple, vous formulez votre recherche avec vos propres mots
et l'IA trouve instantanément les candidats correspondants à vos critères
et grâce à ça, vous pouvez gagner jusqu'à 3 heures par semaine sur vos recrutements
et là, on me répond à chaque fois
« 3 heures par semaine, je vais pouvoir faire 1 million de choses »
Avec LinkedIn, recrutez des bons profils plus vite
Rendez-vous sur LinkedIn.com.
Recrutez mieux
Le plus grand public de la part des recrutements
Le plus grand public de la part des recrutements
Ce que je vous expliquais c'est qu'on essaye ici de pas vous inonder de trop de nouvelles dans l'IA
mais là faut que...
faut que... voilà, faut que ça sorte
On peut savoir que tout le monde a décidé de sortir en même temps les plus grosses nouveautés en novembre 2023
Euh... y compris OpenAI qui lors d'une grande... qui...
qu'on attendait depuis quelques mois, qui n'avait pas fait beaucoup de bruit
mais qui lors d'une grosse conférence a balancé d'un gris sur d'un gris
et je dis pas ça pour faire comme les threads Twitter, là, un peu énervant
c'est vraiment vraiment intéressant
et c'est... à chaque nouveauté, c'était un truc que j'attendais en fait
et c'est ça où je trouve qu'ils sont très très forts quand même pour arriver à se synchroniser sur l'attente des gens
ce qui est un truc qui est facile à planter
là, tout ce que je vais vous présenter, je vais le faire par ordre du plus évident, voilà, dans tout le monde parle
jusqu'au truc, dont on parle moins mais qui sont pour moi même encore plus intéressants
et vraiment chaque truc est impressionnant ou... ou va vraiment changer quelque chose
y compris nous pour la boîte, enfin voilà, je sais qu'il y a beaucoup de choses qui vont nous être directement utiles
et à vous aussi peut-être
ce qui était assez marrant, c'était de voir juste après la flopée de tweets de gens qui expliquaient que leur startup venait de disparaître
ah oui
tout simplement
quand quelqu'un a dit combien de startups n'ont pas d'explicit
en plus il y a la tête parfaite
il faut l'avouer, il y a énormément de startups et de soi-disant applis
qui sont en réalité des rip-offs des appels d'open eye eyes avec juste un prompt ou deux qui changent, clairement
mais du coup, normalement tu t'y attends un peu
et on s'attend à ce qu'elles aient des durées de vie relativement faibles
c'est un peu comme Apple en fait quand ils implémentent
une super appli qui était sur l'app Store mais en natif avec leur propre version hyper intégrée
bah voilà c'est une boîte qui coule
mais souvent Apple ça met deux trois ans
là c'est vrai qu'ils ont été rappelés
la durée de vie des startups c'est zéro parce que comme vous allez le voir il y a des fonctionnalités qui vont permettre
de faire en sorte qu'on ait plus besoin de passer par des services extérieurs qui viennent combiner
chadjp't avec de la vision, avec de l'intelligence, avec des prompts etc
là ils ont imaginé un système de marketplace directement intégré en fait
où on peut créer des chatbots custom
alors qu'est-ce que c'est exactement ?
est-ce que c'est du fine tuning ?
c'est pas leur nom
est-ce que c'est quand même quelque chose de très puissant malgré que ça n'est pas du fine tuning ?
oui je vais vous expliquer ça en détail
concrètement quand on réfléchit à comment est-ce qu'on peut customiser le comportement d'un chatbot
on a accès à quoi ?
Tiffany tu me dis si je dis de la merde
de ce que j'ai bien compris on a accès
on peut modifier le prompt du système
ce sont les premières instructions qui guide le plus le comportement d'un chatbot
la manière dont il va parler
et même dans son arbre statistique
où est-ce qu'il va se déplacer pour fournir des réponses d'experts dans tel ou tel domaine
on peut modifier des documents
donc par exemple si le chatbot a accès à des fonctions comme c'est le cas maintenant souvent
c'est-à-dire que c'est plus seulement de la génération de texte
mais ça devient des assistants qui peuvent appeler des fonctions
qui évoluent dans un univers sans deboxer sur les serveurs d'open AI
et bien on peut modifier quelles sont les outils auxquels cet assistant a accès
par exemple là tu peux créer un super assistant de la finance
à qui tu fournis par exemple des CSV qui contiennent toutes les performances récentes
de Tesla, Apple et compagnie
et cet assistant va pouvoir requêter pendant que tu lui parles
sans même que toi tu te rends compte
tu aurais été il va pouvoir requêter ces documents
et de réfléchir si je vois d'autres exemples
mais tu pourrais imaginer un chatbot qui est spécialiste de mid-journée
et qui a dans sa base de données énormément d'exemples de super prompt qui marche vachement bien
et il a la documentation aussi complète du service dans son local storage en fait
et à chaque fois que tu vas lui parler
toi tu n'es même pas au courant mais derrière
en tâche de fond il va aller faire des recherches
récupérer des informations dans certains documents etc
c'est le tout début de cet app store
donc on sait pas exactement ce qu'il va permettre concrètement
mais ça va être assez marrant parce qu'ils ont
on va dire que la friction pour customiser le comportement du bot
et mille fois plus et mille fois moindre que faire du fine tuning évidemment
qui demanderait énormément de ressources à de temps à être calculé à tout le monde
là chacun va pouvoir bidouiller avec
et on sait que cet effet statistique là est très intéressant
on n'aurait jamais découvert autant de trucs sur les modèles de diffusion
si il n'y avait pas des millions de gens qui avaient pu prendre un bâton
et taper dedans dans tous les sens et voir ce qui sort
et il va probablement se passer la même chose avec cet app store là
donc moi j'ai trop trop hâte de voir ce qu'est les meilleures applications
qui sortent
on a quelques premiers exemples déjà
donc c'est un mentor en mathématiques
quelqu'un qui a accès à plein de ressources sur comment écrire
donc potentiellement que la personne qui a créé ce bot là a mis des bouquins
de conseils sur l'écriture dans sa mémoire vive
sur les strats ils ont aussi fait une démonstration
où le CEO Sam Altman expliquait qu'on lui posait tout le temps des questions
sur comment créer une start-up qui fonctionne
c'est quoi en fait ces conseils qui donnerait
il a créé son double virtuel en fait
qui est un chatbot qui a dans sa mémoire le bouquin
qui pour lui est le plus important et qui synthétise tout ça
il lui a donné quelques instructions pour qu'il se comporte de la bonne manière
qui soit proactive qui répond aux questions etc
et comme ça il redirige maintenant les gens vers ce bot là pour avoir des conseils
sur l'entrepreneuriat
visiblement les résultats sont assez convaincants
je sais pas si vous en avez t'en a vu des intéressants
alors j'en ai vu des intéressants parce que je travaille dans le domaine
il y a certaines choses que je ne pourrais pas dire jusqu'à la fin
je vais me retenir
mais il y a un parallèle que j'aime beaucoup utiliser par rapport à ce que tu viens de dire
c'est sur ces IA qui sont augmentés
donc elles sont pas fine-tunés, elles sont juste augmentées
c'est l'image du stagiaire
moi j'ai l'impression que les IA qui ne sont pas du tout augmentés
on va dire à un chat JPD normal comme il était avant à la base
c'est comme un stagiaire qui sort de l'école
il est ultra bien formé, il est ultra compétent
mais il n'a jamais bossé
et il ne connaît rien au business de ta boîte
et quand il rentre le premier jour
il y a une différence entre demander à un stagiaire de faire quelque chose
alors qu'il n'a aucun contexte
et le premier jour lui donner un manuel
ou un gros descriptif de tout ce que fait la boîte
et c'est quoi le business case, je recommence à marcher tout
et ensuite lui demander de faire une tâche
à ton stagiaire, donc à ton IA
toutes les connaissances dont elle a besoin et où est-ce qu'elle peut piocher
et en fait ça limite ce qu'on appelle les hallucinations
tu avais déjà parlé à Ivoque
les IA quand elles veulent répondre à une question
parfois elles sont complètement convaincus qu'elles disent la vérité
alors qu'en fait elles essaient juste de trouver la réponse
la plus statistiquement probable
alors qu'en fait quand tu leur donnes la source d'informations
elles sont obligées de chercher dans la source d'informations
la vérité
et du coup ça limite ces phénomènes d'allustination
qui posent problème
parce que les gens ont tendance à croire
alors qu'il y a quand même une source qui est vérifiée
et tu peux faire en sorte que ton IA
si elle n'a pas trouvé dans la source, elle l'admette
ça limite vraiment les hallucinations
dans le sens où même si elle n'a pas la réponse
même dans ma stack de connaissances
j'ai pas trouvé la réponse et je te le dis
et là elle est sûre
et ce qui est assez marrant aussi c'est pour la donner
mais il y a aussi dans cette marketplace là
l'accès à des outils
ce serait quoi ? c'est la génération d'image
ou de la compréhension, ou de la vision
ou de l'exécution de code
dans des soundbox pitons on sait que
OpenAI a développé ce système là
si tu peux avoir ton assistant qui est spécialisé
à requêter sur une base de données SQL par exemple
tu pourrais t'imaginer que dans ta boîte
t'as ta base de données de ton entreprise
et tous les jours tu la synchronises avec ton bot OpenAI
donc tu déportes ta base de données SQLite
et ton bot peut tout seul
sans que ton équipe soit au courant de la manière dont ça marche
elle est requetté cette base de données
et de pondre des graphiques par exemple
ça permet de faire en sorte que je ne sais pas moi
quelqu'un qui a aucune notion technique
peut dire ok j'aimerais bien savoir c'est quoi le turn
sur les 3 derniers mois de nos employés
et ça c'est vraiment un usage très très doux
on est dans l'inconnu total des derniers
qui vont être fait avec ça
la deuxième grosse nouveauté c'est des questions de performance
la sortie de GPT-4 Turbo
j'ai déjà un petit aperçu
dans le playground de ce que ça donne
si vous avez déjà utilisé GPT-4 Turbo
vous savez que d'habitude ça va
jamais aussi vite que ça
mais je voulais donner un peu plus précise
et j'ai trouvé un tracker
qui mesure à chaque instant les temps de réponse
des différents chatbots
que ce soit ce d'entropique
que ce soit ce de Google
et ça c'est stylé parce qu'on va vous le montrer
il y a un graph qui te montre au cours du temps
lesquels répondent plus ou moins vite
ça peut t'aider à prendre des décisions
si ta boîte a besoin de tel ou tel API
tu peux décider la plus fiable
et répondre le plus vite
et là si tu surveilles tout à droite
on peut voir que notamment la différence entre le nouveau GPT-4 Turbo
et l'ancien est astronomique
ça passe de 16 secondes à 3 secondes de réponse moyenne
sur un texte donné
clairement ça change beaucoup
ça peut paraître anodin parce qu'on peut se dire à quoi bon
moi je suis en train d'utiliser mon chat
il déroule plus vite que j'arrive à lire
sauf que ce serait sous-estimé tous les cas d'usage
techniques pour des développeurs
il y a plein de cas où ce qu'on a envie de faire
par exemple quand t'as un utilisateur clic sur un bouton
il y a un chain of thoughts
comme on dit donc une série d'interactions
qui se passent en arrière-plan sans qu'on ait même connaissance
et qui vont donner un résultat complètement dingue
sans que l'utilisateur ait à voir toute la conversation
et ce genre de cas d'usage peut nécessiter
de faire des générations en arrière-plan
il faut que ça aille à la vitesse de la pensée
il faut que ça aille le plus vite possible
c'est à 3 secondes ça fait très plaisir
surtout que ça se combine avec une augmentation du contexte
vous le savez probablement que les chatbots
ont une mémoire limitée en gros
c'est à dire que la conversation qu'il y a au dessus
il finit par l'oubli à un moment si elle dure trop longtemps
et c'était 8000 tokens sur gpt4 et ça passe à 128000
ce qui est...
les ordres de grandeur c'est dingue
c'est complètement dingue
je m'en bats pas trop trop
parce que sur les gros contextes
il y a des problématiques
ils appellent ça le problème du trou
je sais plus comment on dirait ça en français
mais c'est que concrètement si tu donnes un bouquet entier
par exemple à gpt4 et que tu lui poses des questions
qui peuvent dans la réponse se trouver au début
ou à la fin il va avoir tendance à trouver beaucoup plus de choses
au début et à la fin de sa fenêtre de contexte
et en fait c'est un problème
parce qu'on pourrait croire que sa mémoire elle est comme la nôtre
elle est linéaire ou inversement
ou alors qu'il oublie le début comme nous on oublierait
nos souvenirs anciens
mais en fait non il y a un phénomène au milieu
il utilise beaucoup moins dans sa réflexion
donc on attend de voir que ce soit sérieusement benchmarké
par des sources externes
mais si ça marche bien avoir beaucoup de contexte
comme tu le disais à etifani ça permet énormément de choses
parce que si le stagiaire on peut lui donner une toute petite documentation
de deux pages ou alors un bouquin entier
ces capacités sont d'autant plus décuplées
ça c'est dans le contexte
oui c'est dans le contexte pas dans une base de données
mais le contexte est ultra puissant
c'est pas le sujet
mais je trouverais ça super intéressant de comparer
comment fonctionne la mémoire entre guillemets
vers juste notre mémoire
tu as dit potentiellement les linéaires
je suis pas sûr
mais du coup ça m'intéresserait de savoir si il y a des gens qui ont théorisé ce sont doutes
comment fonctionne notre mémoire par exemple sur un livre
ou sur un texte
parce que ça n'a rien à voir avec le placement
c'est juste de l'émotionnel
c'est pas le sujet mais c'est sûr que ça doit être très très imagé
et du coup si ça se trouve ça doit être très très dur de comparer notre truc
oui sans doute
c'est très différent de la fonction des gens
alors que pour les modèles c'est toujours le problème des humains
ils sont différents c'est chiant
et la troisième nouveauté c'est une baisse drastique du prix
ce qui fait très plaisir
on passe sur GPT4 à 3 centimes
en gros c'est divisé par
je vais résumer
on a un petit retour au dieu merci
en gros pour GPT4 les inputs
le prix des inputs est divisé par 3 et des outputs est divisé par 2
on dit de vous que c'est beaucoup réduit
c'est par token
mais comme tu peux en mettre plus
tu peux trouver
en fait à avoir tes coups qui augmentent
mais pour la même, parce que tu avais avant
ça te coûtera 2 fois ou 3 fois mon cher
mais oui tu peux avoir un effet
comment on appelle ça un effet rebond
je pense qu'il serait bon d'avoir un effet rebond
la nouveauté suivante
et là qui a donné à beaucoup de démonstration
très sympa et très visuelle sur twitter
ce sont les appellés de GPT vision et de Dali 3
ça faisait un moment qu'on pouvait faire jouer avec dans l'interface
native du chatbot donc GPT vision
c'est le fait de pouvoir uploader une image
et d'avoir une discussion dessus
exemple, vous prenez une photo d'une caissa outil
et vous demandez à GPT quel outil je devrais utiliser
ou comment je pourrais résoudre ce schéma technique
et va aller pointer à tel ou tel endroit de l'image
ce qui doit être fait
c'est très impressionnant et une fois que c'est combiné
avec le côté automatisation, parce que
à partir du moment où il y a qui dit appellé, dit automatisation
on peut aller le plugger à plein d'autres choses
ça devient vraiment puissant
la première des mots que j'ai vus que j'ai trouvé génial c'est
du commentaire
le pendent avant il était loin
c'est vraiment très impressionnant
et concrètement, comment ils ont fait ça
ils ont pris une frame toutes les quart de secondes
et il les a donné à la paix
de GPT vision en lui demandant
de décrire probablement quelles étaient les actions
dans le jeu
à partir du moment où tu as cette brique là, où tu peux avoir un flux vidéo continue
et en tirer une suite d'actions
de qu'est-ce qui se passe à l'écran, qu'est-ce qui rentre dans la scène
qu'est-ce qui sort etc
c'est fou, tout ce que tu peux en faire est fou
là, dans ce cas là ils ont imaginé un commentaire en direct
d'une régie de foot
mais on peut imaginer plein d'autres concepts
il y a une autre démo qui est sortie, qui était l'équivalent
mais avec une webcam
concrètement, il a fait en sorte que toutes les secondes, il y a une photo de sa webcam
qui est prise et c'est envoyé à GPT vision qui va décrire
ce qui se passe
donc là il le voit, il prend un objet et il le met devant sa webcam
pour voir ce qui se passe
et t'as GPT vision qui opte en paix
et qui explique qu'il vient de prendre sa boîte de ras-bé-répis
c'est assez fou
c'est assez dingue parce que en gros la brique
on vient de trouver une brique supplémentaire dans notre
cette de Lego en fait
et on sait pas encore ce qui va être possible avec
c'est ça qui me facilite le plus
j'ai l'impression que c'est un bon résumé de cette conférence
globalement ils ont rajouté des briques
on a des nouvelles briques à vous présenter
vous les avez à disposition
des merdes vous
c'est super simple parce que c'était ce qui manquait
on voyait le potentiel
de l'HGPT et on a vu toutes ces entreprises
se monter très rapidement pour faire ce genre de choses
ils sont dis mais non il faut rendre les choses plus
facilement utilisées par les gens donc on crée ces briques
à partir de là je pense qu'il va y avoir des choses
complétement hallucinantes mais c'est sûr parce que déjà on sentait
que ce qui capait un petit peu les possibilités
des GPT4 et compagnie c'est la compréhension
du monde c'est un peu de voilà c'est des hallucinations
il y a des choses comme ça mais quand même ils se débrouillent vraiment pas mal
on sentait qu'il y a un plafond de verre
ça restait la compréhension de l'image en fait
et imagine maintenant ce genre de modèle
intégré dans un casque de réalité virtuelle où t'as ton assistant
qui a constamment le contexte de ce que tu dis mais aussi
ce que tu vois
mais en fait là tu vois ce que tu dis c'est comme si aux IA on avait rajouté des yeux
et en fait ce dont tu parlais avant c'était
leur donner la capacité de pouvoir faire des actions
genre comme par exemple prendre des décisions par exemple sur des transactions financières
des trucs comme ça et là on leur donne des bras
et là je pense qu'on commence à glisser doucement
faire quelque chose de t'es ou tu fais ok
je me suis très stoie
c'est clair, évidemment là j'ai partage tout mon enthousiasme
mais bon il y a une partie de moi qui a un peu peur de ce qu'on va voir dans 6 mois quand même
d'autres démos qui utilisent ça
qui sont potentiellement plus pratiques
c'est sûr qu'elles vont être utilisées rapidement
par des boîtes parce que c'est juste trop pratique c'est de l'auto mock up
j'ai appelé ça comme ça, concrètement vous faites un petit dessin
d'une application ou d'un composant comme
un designer web finalement
donc là il fait un tweet en deux secondes avec
like, commente, partage
et un truc très basique
et il envoie à son API qui lui génère ça
je sais pas si vous en réalisez quand même
parce que le composant est propre, il est pas parfait je pense qu'il pourrait encore l'améliorer
mais en gros ce qui se passe en arrière-plan c'est que
l'image son dessin fait en deux secondes
est envoyé à GPT Vision
et à partir de ça on lui demande directement
sans intermédiaire de générer du code HTML
en utilisant probablement une librairie de stylisation
comme Tailwind pour faire le composant équivalent
et c'est pas moche, ce genre de démo
ça existe depuis quelques années quand même
c'est pas foufou, là ça commence à être vraiment utilisable
en fait ce qui est très intéressant avec cette démo là
c'est qu'elle, comme tu dis, elle existe depuis longtemps
enfin ça fait un moment qu'on essaie de générer des sites
directement à partir de mock up mais ce qui est très intéressant c'est de voir comment les techno
derrière ont changé et je me rappelle que
c'était il y a un an quand je suis venue
pour la première notite de Microsoft on avait parlé
c'était pratiquement il y a un an mais... non il y a deux ans
c'était il y a deux ans ? oui, il est en peste
mais je me rappelle qu'on avait parlé
déjà à cette époque là d'une techno qui était similaire
mais qui marchait pas du tout avec les médecins d'eau
et c'est fou comme ça va vite
moi je suis hallucinée comme d'habitude
on l'a dit plus mais c'est vrai que c'est quand même
en fait j'ai l'impression que des fois c'est quand on travaille dans le domaine on est encore plus à IP
que les gens qui travaillent pas dedans oui c'est parce que tu coules
c'est plus dur de mesurer la vitesse
de progression
quand de ton produit c'est un peu de la magie en fait
oui parce que ce que tu viens de montrer là
je pense qu'il y a beaucoup de gens qui vont faire ah mais j'avais déjà vu ça il y a longtemps
c'est pas du tout la même techno qui est derrière
c'est super intéressant d'ailleurs de regarder comment ça marche
c'est pas autant utilisable du tout là vraiment le code qui est pendu j'ai regardé un peu
c'est effectivement du tailwind déjà ça utilise des règles de l'art c'est responsive
en fait tu peux vraiment l'utiliser dans ton projet
dernière démonstration sur gp tévision
on peut appeler ça ?
c'est quoi ça ?
le jeu d'acteur
tout les jours
tu as une intention et tout
imagine sur ton ordinateur
t'appuies sur un raccourci clavier
tu sélectionnes une zone n'importe où de ton image
et tu demandes ce que c'est
donc concrètement tu sélectionnes la zone et tu demandes ce que c'est
donc ça s'applique à je sais pas moi si tu
tu es en train d'étudier des schémas scientifiques
donc là il va donner quel est l'os exact
tu vas sélectionner mais bien sûr
ou alors si il va montrer aussi une équation mathématique
ou tu peux sélectionner un des paramètres
et lui demander précisément
qu'est ce que c'est que cette constante là ?
c'est génial
mais alors ça
c'est génial
ok là je chète
c'est quoi sur les images du coup ?
le pire c'est actuellement des screenshots
et point bas
alors non ça peut marcher avec du texte
puisque gp tévision comprend tout ce qu'il texte
mais moi ce qui me fume c'est que ça
c'est un script de 20 lignes
c'est à dire qu'il a juste connecté la pays
avec la capture des crans
il n'y a aucun travail de sa part
il n'y a pas d'intelligence
c'est le niveau 0
donc exactement qu'est ce que ça va être
quand ce sera des produits
un truc qui met plus
plus poquinés
ça c'est pas fait directement par oponaiai
c'est le mec qu'on a vu à l'écran
il a connecté chez pas de tu prends un récast
tu fais une sélection d'écran
quand tu obtiens une image
on voit une requête oponaiai avec telle prompt
dis moi ce qu'il y a en une ligne
affichez l'écran, t'as mis
c'est vraiment ça c'est qu'ils nous ont donné des nouveaux pièces de légo
ils nous ont donné les moyens de les assembler
en gros c'est la conférence
ils n'auraient plus refaire en 30 secondes
si
j'ai réagi sur la message du chat
qui dit que les IA pourront réaliser les captures pour nous
la boucle est bouclée
et c'est pas une blague
j'ai vu des
la première file
les captures fallait en même temps qu'ils seront nouveaux
d'accord mais honnêtement
des X et Z
là j'en ai marre
j'ai vu sur un projet, sur un concurrent
de GPT Vision au point de source
que leur modèle de
démonstration donc en gros ce qui est le data set
qui permet de faire un peu, je joue avec le modèle
c'est des captures
ce modèle je suis sûr que tout le monde t'a demandé
je pense c'est pas Cliama mon avis
et je sais pas si c'est celui-là
mais en gros
tu t'installes le modèle
et la première truc qu'on te propose de faire
c'est de craquer des captures
je trouve ça juste le pied de nez
à mourir de rire
mais oui ça pose question
c'est pas sûr qu'ils aient réussi
à faire une version suivante de capture
franchement
ça va devenir très compliqué
salut, si vous appréciez Endorscore vous pouvez nous aider de ouf
en mettant 5 étoiles sur Apple Podcast
en mettant une idée d'invité que vous aimeriez qu'on reçoive
ça permet de faire remonter Endorscore
telle une fusée
je l'enchaîne parce que
c'est que le début
je vais aller un peu plus vite
mais honnêtement il y a encore des trucs
dont on a moins parlé
qui sont pour moi vraiment intéressants
le point suivant
qui est un peu pas assez sous-cinemment c'est que
on a maintenant un modèle directement dans l'interface de
TchatchiPT
qui est all-in-one, dans le sens où avant
il y avait la version normale
la version qui peut accéder à internet
la version qui peut générer les images
avec dali3, la version qui peut exécuter
du code dans un environnement piton
avec data science
tout ça
et maintenant réunis dans un seul modèle
qui peut tout faire en fait
ce qui permet de débloquer
des nouveaux usages qui n'existaient pas
par exemple
quelqu'un a fait la démonstration
il a envoyé sa photo et lui a demandé de générer
un avatar avec
donc juste drag & drop
dans TchatchiPT
est-ce que tu peux me générer un avatar
et bim
alors qu'avant il aurait fallu lui demander
une description précise de la photo
ensuite de générer un prompt pour dali
et ensuite de faire un avatar
on va dire que comme tu le dis
justement ils ont connecté tous les trucs
ce qui débloque
des nouveaux usages
qui n'étaient pas possible avant
attention en vrai c'est un peu de la triche
parce que c'est pas de l'image
c'est de l'image
tout texte tout image
en arrière-plan
ce qu'on voit pas c'est tous les promptes cachées
que lui utilise
et en fait il décrit l'image
à partir de laquelle il fait un avatar
parfois ça marche moins bien
et il y a que ici
parce que sur le tweet
il va direct
exactement le tweet il a voté
c'est génial, c'est une révolution
le monde va changer
dans les faits ça marche une fois sur trois
t'as essayé de le faire du coup
mais c'est cool
tout le monde va vouloir voir ces avatars
nouveautés d'après c'est le texte tout speech
et ça c'est vraiment cool
pour l'instant il y avait en gros que 11 Labs
une entreprise spécialisée en texte tout speech
qui arrivait à un certain niveau de qualité
donc à produire des voix
humanoïdes
qui soient pas trop malaise
c'était impressionnant
on l'a déjà utilisé
dans des vidéos
pour faire des autros dans score que je pouvais pas tourner
ça se voit un tout petit peu
mais ça coûte un petit peu cher
à la requête mais c'est quand même assez impressionnant
la version d'open eye
elle est seulement disponible sur 6 presets
mais qui marche très très bien
et pour le coup c'est 2 fois moins cher
c'est quoi 6 presets ça va dire quoi
en gros il y a 6 voix différentes
d'ailleurs j'ai fait une petite génération
pour vous montrer un petit peu à quoi
on peut s'attendre
tout simplement j'ai pris un des presets
et je lui ai fait dire une phrase
si t'arrives à l'envoyer
Salut underscore
j'espère que le chat va bien
et que Mikod raconte pas trop de conneries pour une fois
allez ciao les skips qui dit
mais du coup on peut pas entraîner sa propre voix
non c'est pas fait pour ça
c'est fait pour avoir une voix ultra crédible
parce que là les intonations
les points d'exclamation
les 3 petits points modifient vraiment
la manière dont la personne parle
et franchement très calie
moi je suis à l'air très réactif
moi je le prends
et les deux derniers je vais rapidement sur la fin
non tu es content on t'entend
et les deux dernières annonces vraiment cool
c'est des intégrations dans les interfaces
alors je vais expliciter
ce que c'est exactement
et une nouvelle version de whisper
qui est un modèle open source
très très cool
je m'explique
personne n'en a parlé de ça
mais pourtant c'est assez original
j'ai trouvé comme manière d'utiliser
un modèle comme chagapet
et leur système de fonction
concrètement des développeurs
vont pouvoir intégrer dans une web app
un assistant qui n'est pas juste
une petite boîte de discussion dans un coin
qui est le truc surutilisé
qui fait un peu chier tout le monde en fait
mais faire en sorte que cette discussion là
ait un réel impact sur l'appli
ils ont fait la démonstration
en live justement
de ce que ça pourrait donner par exemple
sur une appli de conseil de voyage
donc
concrètement t'es là ce...
à discuter avec ton assistant qui te prépare ton voyage
à Paris
et tu vas lui demander
je sais pas si tu as la vidéo
trop bien
et tu vas lui demander
une série de conseils
en vrai je pense que tu peux avancer un peu
parce que ça va m'aimé un peu de toi à arriver
ah bah non, trop fort
tu vas lui demander peut-être 10 endroits
que tu pourrais visiter
sur la ville de Paris
et plutôt que de simplement te donner
la 10 endroits tout cuit
il va dynamiquement pouvoir modifier
la page web sur laquelle tu es
et la carte qui est à droite
et te rajouter des petits points d'intérêt
qui correspondent aux endroits
pas si vous... si on regarde un petit peu
dans l'interface
en fait
c'est un peu plus petit
on mettra ça plus gros
sur la VOD
mais concrètement
l'interface ressemble à ça, il y a une carte à droite
un assistant à gauche
et plutôt que de simplement avoir
d'un côté l'assistant, de l'autre, ton appli
il y a une intégration forte en fait
et l'assistant peut aller modifier
la carte
et il rajouter les éléments
si tu lui dis non, c'est trop loin pour moi
ce point
ton petit point sur la carte
il va se déplacer pour te proposer d'autres choses
il va te déplacer le monument
il prend un autre exemple
où il met un fichier pdf
dans la conversation avec ses billets
et hop, les données du pdf
sont lues automatiquement
par chagapet et ensuite
sont intégrées
dans un composant
de l'interface
avec les bonnes heures
et les bonnes alertours etc
pour te générer
lui est modifiable
par l'assistant
un peu flippant
ça c'est ouvert ou pas ?
en fait, concrètement ce qu'ils utilisent
c'est leur système de fonction
et de json valider
donc concrètement, faites pas de conneries
je veux dire, ça reste que les développeurs vont pouvoir s'en emparer
et lui, c'est sûr
c'est utilisé que des choses qui sont déjà dispos
il te montre un peu ce que tu peux faire
avec de la validation
de données de type json etc
on va s'en rentrer dans le détail, ça permet d'être plus sûr que
un assistant
va générer des données interprétables
par un programme automatique
donc c'est assez puissant
ah, visiblement, il y a des choses qui se préparent
du côté Amazon
encore les dire
on est sur un gilet à la gauche
tout ce qui est validation
d'output
c'est un truc sur lequel tout le monde bosse
et qui est très important
c'est déjà possible sur les modèles open source depuis genre
un an et demi en vrai, c'est ça qui est marrant
c'est que parfois ils ont de l'avance
mais moi j'avais une question
qu'est ce qui te ferait plus utiliser
chadjpt open AI, jpt4 etc
que tous les modèles open source
qu'on a pu voir sur plein de trucs différents
honnêtement j'en ai vu plein passé
j'ai un peu oublié tous les noms, mais entre opics, etfirs etc
je pense que tu as
une place pour les deux vraiment
tu as vraiment des applications différentes
où l'un ou l'autre c'est plus pertinent
dès que tu veux faire du fine tuning sur tes propres données
en fait partir d'un petit modèle ultra
performant
c'est beaucoup plus réaliste
et ça va te coûter genre
un million de fois moins cher pour des performances
relativement décuplées
pour les modèles
propriétaires privés
en vrai
pour l'instant il n'y a rien qui arrive
à leur niveau en termes de capacité
et quand tu te vois que le prix que ça coûte
en fait et les temps de latence
que tu vas voir
et la non infrastructure
que tu dois déployer
et la qualité du service qui est dispo
à peu près tout le temps
en fait il y a un moment ça peut devenir quand même intéressant
de pas devoir déployer
toi-même tes propres modèles
le calcul va être un peu suivant ton usage
c'est un peu bidouilleur etc
tu peux prendre des modèles open source
voir un peu ce qu'il se fait et tout
si tu veux juste la fonction et l'utiliser au quotidien
en fait plus tu as besoin d'intelligence
plus tu vas tourner vers des gros modèles
propriétaires en réalité c'est ça
ah ouais ?
il y a un certain niveau de
tu me dis je suis cordé à avoir ton avis après
je pense qu'il y a un certain niveau
de
je ne sais pas comment dire mais de compréhension du monde
en fait
de logique
ou on n'a pas encore
d'équivalent open source
de GPT4 et enthropique etc
mais est-ce
grave
en vrai ça dépend
de ton use case
ça dépend vraiment de ce que tu fais
souvent tu n'as pas besoin de
ce que souvent t'entendais ma question
en vrai tu as rarement besoin
d'avoir une telle performance
en fait je parle dans la plupart des cas
en tout cas pour
des petites applications
des entreprises ou ça
souvent tu te rends compte que tu n'as pas besoin d'avoir une technologie
comme chadgpt ou de rien
et à ce moment là tu peux bidouiller ton truc
mais en fait
c'est
je pense c'est tout le
l'overhead
tout le fait de devoir
mettre à jour ton modèle
ou alors l'infrastructure qui est derrière
la pénibilité
juste la pénibilité
de devoir être sûr que c'est tout le temps
au top
ça a toujours été comme ça
ça n'a rien de changé avec
rien de changé avec la débat
c'est toujours le même débat
pour ceux qui aiment
bien bricoler
très bien QZI mais il y aura toujours beaucoup plus
de taffes et ce sera disponible
aussi pour les gens qui veulent lancer
leurs trucs rapidement et qui veulent mettre de liens
directement dans leurs applis
et que ça ne les dérange pas de payer un petit peu par moi
donc voilà c'est
le débat est toujours le même
et la dernière news
qui moi m'a fait vraiment très plaisir
c'est le nouveau whisper
whisper
c'est le dernier
un des derniers modèles open source
d'open aiie qu'on peut appeler close d'aiie maintenant
parce que clairement ça n'a
il n'y a plus rien d'open aiie
ça rend que c'est un vrai problème de branding
il y a un changement de trajectoire
rien en plus
on peut quand même
leur donner
qu'ils ont un dernier modèle très compétitif
où il n'y a pas d'équivalent actuellement
sur le marché c'est whisper
qui ont encore amélioré pour leur version 3
donc whisper v3
concrètement à peu près tous les langages
ont un gain de performance
on a un petit graph qui monte sache
par langage tu vois le gain
bon
il y en a où c'est énorme
ou juste la v3 va tout changer
pour le français
on le voit pas très bien ici
mais pour le français le gain est assez marginal
de l'ordre d'un petit pourcent ennemis
ou quelque chose comme ça
mais en fait pour vous expliquer
whisper ce que ça permet de faire
c'est d'écouter de l'audio
et de le transcrire en texte
c'est du speech to texte
c'est ça qui vous permet de transformer une vidéo youtube
en résumé
en 10 points
ou alors
c'est ça qui permettrait d'avoir un jarvis
qui comprend très précisément
toutes les phrases que vous lui dites
même le vocabulaire ultra spécifique
même quand vous marmonnez
dans votre barbe
c'est très important et très frustrant
quand un assistant ne comprend pas bien
ce qu'on lui dit en fait
et donc ces modèles là c'est hyper crucial
et on a encore du prografaire
et donc ce modèle est vraiment bien venu
en français ce ne sera pas dingue
c'est une petite augmentation
mais en fait il ne faut pas négliger ce que c'est
c'est quand même des dizaines
des dizaines de fautes en moins
sur une transcription d'une discussion
comme celle qu'on a en ce moment
franchement ça fait très plaisir
merci à eux de le garder
open source n'est-ce pas et si vous pouvez recommencer
par exemple en vrai il y a plein de gens qui disent
qu'il pourrait mettre
il pourrait mettre en open source
GPT 3.5 turbo
et plein de gens qui disent ça et je suis assez d'accord
parce que c'est probable
ça a liqué dans un
papier de Microsoft
que ça ferait probablement
20 milliards de paramètres
ça n'a pas été confirmé mais c'est probable que
en fait très loin des 130
qu'on s'imaginait
ce charge ept 3.5 turbo
ce sera en réalité que 20 milliards de paramètres
donc avec de la quantisation
bref un truc pour le
le rendre un peu plus petit
concrètement tu pourrais le charger
sur à peu près n'importe quel gros
gpu
à ta maison
c'est pas sûr qu'ils vont le faire
j'y crois même pas trop mais ce serait vraiment un
je pense que c'est le public est-ce que
tu peux pas savoir un peu leur méthode de travail
d'entraînement non
je pense que les gens ils veulent juste les poids
oui évidemment mais tu as fait de bord
forcément je pense que c'est un des trucs que tu réfléchis
non mais deux questions
c'est une bonne question peut-être qu'ils veulent garder le secret de leur entrainement etc
mais franchement
ça serait bon
il remontrait dans le coeur de beaucoup de gens
si ils faisaient ça
ils se sont un peu fermés dans le coeur des gens
alors que facebook est devenu un bon élève
alors qu'à la base c'est facebook
comme en métal
en quelques mois dans la sphère tech
a pris un
conclusion
si vous êtes une boîte tech et que tout le monde déteste
vous n'a pas de sourcils un truc
les gens vous aiment bien
exactement
mais facebook
exemple de facebook
ben voilà
on rend
je sais pas si c'est une bonne conclusion
si ça donne de l'espoir dans la vie
mais je sais pas
je sais pas si ça donne de l'espoir dans la vie mais c'est tout à fait vrai
et les seules petites
déconvenues
les seules trucs qui m'ont un petit peu déçu c'est qu'il n'y a pas de diarisation
ce qui est aussi un truc très important
c'est le fait de pouvoir repérer qui parle
dans une conversation à plusieurs
par exemple
quand je passe ondorscore dans whisper
il a un peu de mal à savoir que
c'est Tiffany, Mathieu ou moi qui est en train de parler
et voilà il y a des petits overlaps
ça marche
mais en gros
tu dois rajouter des algos
et des technos par dessus
le modèle qui ne le gère pas nativement
c'est un peu dommage
et
j'aimerais bien qu'il bosse un peu là-dessus
parce que c'est bon
je le pompe
leur travail gratuit
ce que je vous propose
parce que j'ai fait un énorme tunnel
c'est que si
honnêtement je n'ai pas du tout regardé le chat
oh coucou petit raid de bastille 8
que je vois pour une fois alors que je le rappelle
alors il faut que je te raconte
c'est que quand on oublie de remercier un raid de bastille
il m'envoie un message
c'est vraiment pour rire bastille
mais il est là en mode
super le raid
et comme quoi il nous raid toujours
il arrête pas de nous raider
alors ça c'est sympa quand même
il dit il leak
il continue
il continue de nous raider
donc j'ai fait un tunnel dont je n'ai pas suivi
aucune de vos réactions donc
si vous avez des réactions à la conférence
ou des trucs que vous avez vu que j'ai probablement raté
n'hésitez pas
à les partager
parce que je ne l'ai juste pas vu
je peux essayer de remonter mais vraiment là j'ai
pas de la chaine parce que sinon ça allait être très bon
diarisation avec un H
non pas ça
quand j'ai entendu le mot pour la première fois je me suis dit
tiens est-ce que c'est le meilleur mot qu'ils ont choisi
pour écrire la chose
je sais pas exactement
ce que ça veut dire
non
est-ce qu'il y a des trucs que vous vous avez vu
ou qui vous ont paru
particulièrement intéressant
moi pour rebondir
c'est pas pour rebondir sur quelque chose
pour rebondir sur à quel point ça va vite
moi vraiment quand je me refais l'échelle
la techno qui a permis les LM c'est 2017
les premiers LM ça doit être quoi
2019-2020
GPT3 ça doit être 2021
ou 2022
tchut GPT 2022
et
enfin vraiment tu te dis la techno c'est 2017
on est en 2023
vraiment c'est la vitesse à laquelle ça va
qui me sidère
et il y a 5 ans justement
on aurait
il y a quelqu'un qui disait
il y a 5 ans on aurait pu dire que la voiture autonome serait là dans 5 ans
mais par contre on aurait jamais
pu dire qu'on aurait
ce type d'IA avec lesquels converser
résultat on n'a pas la voiture autonome
et la voiture autonome c'est oui mais il y a pas mal de gens
que je trouve pas stupides du tout
qui disent que c'est possible qu'on ne l'ait jamais
oui on a les mêmes sources
c'est une take intéressante quand même
et c'est vrai que c'est frappant
de dire c'est fou
tout le monde aurait dit à 10 ans qu'on serait
plus conduit par des robots
et non non non à la place
on parle des gens qui n'existent pas
voilà et du coup je trouve ça vraiment
fou l'évolution
de tout ce que c'est
très très stylé
le fait que le pressing de l'input soit 3 fois moins cher
c'est un peu signe c'est un bon signe pour encourager
aux longs pré prompt et aux embanding
oui
moi j'ai vu des gens se plaindre
du fait que la nouvelle version
de gp t4 turbo avec un contexte
gigantesque où tu pouvais mettre un livre
par contre l'output
lui était toujours limité
à 4000 tokens
donc tu peux pas faire écrire un livre
gp t4
mais en fait
c'est pas si dramatique dans la mesure où
tu peux toujours lui faire générer des choses
et le mettre dans son ancien contexte et qu'il poursuive
ce qui est un peu de la triche
c'est marrant parce qu'à chaque fois c'est le genre de truc que je vois
en conversation que j'ai vu sur twitter par exemple
où des gens se tappent sur le propos de ça
donc la personne répond
mais non mais tu dis n'importe quoi
t'as qu'à faire plusieurs générations
mais en fait cette personne a jamais essayé
de produire des contenus de longue durée
pourquoi ? parce que
en fait c'est hyper important la taille
d'un output
d'un modèle de langage
parce que comme on le sait
les chhp t ils ont très envie
de conclure tout le temps
donc en fait tu lui demandes d'écrire un article
si tu entre un article écrit
en une fois
ou en quatre fois
en termes de qualité
de la narration et de la caractéristique etc
ça n'a rien à voir en fait
c'est comme si on écrivait 4 mini articles c'est nul
non mais tu dois être vulgarisé
ou alors des articles où tu commence
à partir sur quelque chose et après tu te mets à conclure
tout de suite et après tu es testu
tu recommences et tu conclues tout de suite
clairement
non non c'est genre de jamais écrire
le format long
mais ouais
j'ai pété 5 et j'ai pété 6 en 2024
je crois que de ce que j'ai compris
ils sont déjà en train de bosser sur j'ai pété 4.5
là en réalité
les améliorations
c'est juste de la vitesse mais on s'attend
à un modèle bientôt qui soit
j'ai pété 4.5
où là on passe un cap en termes de
capacité de compréhension de raisonnement etc
moi je me suis un peu perdu sur
ce qui ferait que ce serait un 4.5
ou un 6. Autant entre le 1, le 2, le 3 on l'avait bien
un peu le 4
mais là maintenant ça devient un plus ou moins qu'au
fin le numéro de version devienne plus ou moins
commerciaux ou... Ouais je sais pas
non je pense qu'il y a que ça décrit vraiment
toujours d'agir sur le même modèle
dans le sens où
j'ai pété 3.5 c'est vrai de ce que
j'ai compris en termes de taille de modèle etc
c'est assez proche de j'ai pété 3
et là où sur j'ai pété 4
ils ont complètement changé le système en fait
c'est un modèle un peu un serbert
dans le sens où il s'est pas un seul modèle
comment ça s'appelle
il y a multi-model
dans le serveur
il n'y a pas qu'un modèle
il y en a 8 en fait
mais qui sont scotchés ensemble
et entraînés différemment
et je savais
je sais même pas comment ça marche
c'est du multi-model effectivement
je me permets de se créer de fabrication
une chronique sur le sujet
moi je l'ai envie d'en savoir plus
Michael ou toi tu fânies
tu me dites
si jamais ça peut se faire
et c'est compréhensible etc
surtout non seulement
bon eux c'est un peu les pionnés là-dessus
mais maintenant tu commences à avoir des modèles open source par exemple
on dévie un peu mais je m'autorise parce que c'est la chronique qui finit
il y a des modèles open source
genre Mistral
qui est incroyable et qui fait seulement 7 milliards de paramètres
il y a des gens qui tentent
de reproduire du multi-model
avec des petits modèles comme ça open source
par exemple
d'avoir 3 Mistral scotchy ensemble
que tu entraines à faire des choses différentes
par exemple
produire un output, critiquer l'output
et régénérer quelque chose de mieux
et c'est pas juste du prompting
tu finis une des 3 mini-modèles
à faire ça
et apparemment ça c'est le tout début
mais apparemment c'est prometteur
Mistral qui est français
et qu'on arrive pas à vous
l'isé Vodem
Mistral, l'isé Vodem
après ils ont pas fait de presse
mais on est pas la presse ici
ce n'est pas un passé
vous venez sans aucune annonce, on est content
exactement, vous venez sans aucune annonce
on discutera mais
mais c'est sûr que
ce que je comprendrais c'est qu'ils aient un peu
des choses dans la
dans la cuisine
je vais aller relancer
ce qui est probable aussi c'est qu'ils ont
des annonces prochaines à venir
et qu'ils sont en mode
on bosse
dans l'ombre et on balance des dingrilles
ce que je comprends, ils se sont
construits cet été donc c'est quand même
je pense qu'on va aller up quand même parce qu'on a trop envie de leur parler
maintenant qu'on l'a dit publiquement sur Twitch
je vais être au filet de l'hub demain

Episode suivant:

Processeurs M3 : la stratégie cachée d'Apple

Les infos glanées

d'Experis

Michaël

Je suis une fonctionnalité encore en dévelopement

Signaler une erreur

Underscore_

IA, Hacking, Robotique — Des conversations de terrain avec ceux qui construisent. 🥨

Partenariats: underscore@micorp.fr

---

Hébergé par Acast. Visitez acast.com/privacy pour plus d'informations.

Card title

Lien du podcast

[{'term': 'IA', 'label': None, 'scheme': 'http://www.itunes.com/'}, {'term': 'Investissement', 'label': None, 'scheme': 'http://www.itunes.com/'}, {'term': 'Nouvelles Technologies', 'label': None, 'scheme': 'http://www.itunes.com/'}, {'term': 'Tech', 'label': None, 'scheme': 'http://www.itunes.com/'}, {'term': 'Actu tech', 'label': None, 'scheme': 'http://www.itunes.com/'}, {'term': 'Cybersécurité', 'label': None, 'scheme': 'http://www.itunes.com/'}, {'term': 'Développement', 'label': None, 'scheme': 'http://www.itunes.com/'}, {'term': 'Dev', 'label': None, 'scheme': 'http://www.itunes.com/'}, {'term': 'Entreprenariat tech', 'label': None, 'scheme': 'http://www.itunes.com/'}, {'term': 'IT', 'label': None, 'scheme': 'http://www.itunes.com/'}, {'term': 'Robotique', 'label': None, 'scheme': 'http://www.itunes.com/'}, {'term': 'Technology', 'label': None, 'scheme': 'http://www.itunes.com/'}]

Go somewhere