L'assistant vocal d'Underscore

Durée: 29m37s

Date de sortie: 17/05/2023

Nos assistants vocaux ne sont pas très efficaces… mis à part peut-être pour lancer un minuteur. Mais est-il possible d’en créer un de toute pièce, correspondant à nos envies et à ce qu’on aime ? Avec les nouveaux services d’IA sortis ces derniers mois, on a fait le test, et on vous fait une petite démo en direct ! “OK Michel, écoute Underscore_”


Pensez à mettre 5 étoiles pour soutenir l’émission !



Hébergé par Acast. Visitez acast.com/privacy pour plus d'informations.

Je vous disais, on s'est amusé avec Tile à développer un petit proof of concept pour cette émission.
Je vous donne l'origine story. De d'où tout ça est parti ? Il y a quelques jours,
je étais dans mon lit en train d'essayer de vouloir dormir. Et alors je ne sais pas vous,
mais moi c'est toujours un moment où je m'ennuie. Parfois j'ai pas envie de lire et j'arrive pas
d'adormir et je suis en mode là, je ne sais pas moi. Si je pouvais par exemple avoir un
assistant extrêmement intelligent avec qui je pourrais avoir des discussions passionnantes,
franchement ce serait incroyable. Tu voudrais finalement avoir Etienne Klein à poter de
toi pour député par exemple. Non mais parce que pour le degré je me remercie. C'est un super
exemple de parler d'astrophysique ou de philosophie et sans avoir de moindre effort à faire,
simplement dans une discussion naturelle. Ça t'aiderait pas à dormir, ce n'a dit.
Je pense que comme c'est que du son, tu vois, c'est pas de l'overstimulation comme ton téléphone,
je pense qu'au contraire tu pourrais facilement t'endormir sur une conférence des dînes cléants
directs. Pas sûr qu'ils le prennent bien mais pas grave. Et tout ça part de toute cette réflexion
par du constat que je faisais avec eux. Globalement les assistants vocaux à l'heure actuelle,
c'est nul. Voilà c'est pourri. Je ne sais pas vous mais moi je l'utilise uniquement pour déclencher
un chronomètre ou éventuellement mettre une musique sur Spotify. Et encore, parce que pour
que l'on entend. Moi c'est vraiment que le minuteur. Il faut qu'il l'entende correctement. On peut
globalement se mettre d'accord. C'est pourri, ils sont cons, ils sont super lents et voilà toute
discussion est inintéressante. On est très très loin de ce que là j'espérais. Même le créateur
de Ciri est plus ou moins d'accord avec cette take. On l'avait reçu, il était d'accord avec nous.
Et je trouve ça absurde que aujourd'hui avec ChatGPT et tout ce qui est sorti sur la dernière année
en termes de compréhension de la langue, du NLP, du texte ou speech aussi, donc de la génération
vocale et globalement des LLM pour créer des discussions passionnantes, je trouve ça absurde
qu'on est encore seulement entre guillemets Ciri ou Alexa avec nous pour discuter. Donc je me suis dit
il faut qu'on règle ce problème. Les problèmes que j'ai très rapidement rencontrés c'est que
c'est pas si simple. Alors déjà, qu'est ce qu'on, si on devait décrire notre truc idéal,
comment ce serait ? Donc il faudrait que ce soit connecté à ChatGPT parce que objectifement
c'est le meilleur truc qui existe actuellement. D'ailleurs ChatGPT, on est plutôt content en
fait d'avoir lu parler. Je sais pas si vous vous souvenez mais à une certaine époque on avait des
possibilités que Ciri soit aussi compatible avec l'écrit. Parce qu'il y avait cette question de
parfois tu es dans l'ascenseur, tu es en train de bosser etc. Tu as juste pas envie de parler.
Bon là dans notre cas, c'est pas ça qu'on souhaite, on veut un truc qui parle. On voudrait que
cette assistante soit hyper compétente sur l'ensemble des sujets qu'on veut, pour être
expert en histoire, en géo, nous raconter des années que d'autres marrantes, un expert de
philo, de physique. C'est exactement ce que tu as écrit honnêtement. Je vais peut-être dire
la grosseur parce qu'effectivement c'est la meilleure description que tu as fait. C'est un
etienne clain à côté de ton lit en gros. Et évidemment je me suis dit on doit pas être la
première à avoir eu cette idée. Avec toutes ces annonces là, il y a forcément des gens qui ont
testé. Et effectivement il y a plusieurs démonstrations qui sont actuellement sur YouTube où des gens
connectent chat gpt, de la détection vocale et de la génération de voix et ficelle un
assistant vocal en une dizaine de minutes. Vous pouvez taper sur YouTube, vous en trouverez
facilement comme celui-là. Mais là, il y a un problème puisque de tout ce que j'ai vu,
ils sont tous pas terribles. Pour la bonne et simple raison qu'ils sont extrêmement
lent de type, tu déclenches ton assistant, tu lui poses la question, il faut attendre au moins
30 bonnes secondes avant d'obtenir une réponse. Et ça, ça casse tout le délire. Ok chat gpt,
des réponses géniales, mais si toutes les interactions elles sont comme s'ils avaient
84 ans, ça casse tout le délire. Donc c'est un challenge technique qu'on a essayé de relever.
Mathieu, tu avais une question tout à l'heure ? Non mais peut-être que je gère à la fin,
on en parlera à la fin au cas où j'en ai parlé au pas. Ouais ouais c'est ça. Donc si,
donc c'est ce que je veux je vous disais, on a eu cette idée il y a quelques jours et on a essayé de
ficeller rapidement une démonstration qui fonctionne. Donc je vais vous débrieffer tout ce qu'on a
fait, comment ça marche et surtout quelles sont les potentiels trucs qu'on pourrait améliorer. Je
suis méga curieux de savoir ce que vous vous allez pouvoir faire de cette idée. Le point de départ
donc c'est d'avoir un outil qui comprend le langage et qui est capable de traduire notre
voix, donc notamment détecter un trigger word comme on dit, donc un ok Michel par exemple,
et qui soit ensuite capable de comprendre la question ou notre voix.
Là-dessus il y a énormément d'options qui existent actuellement. Il y a quelques temps on
utilisait beaucoup deep speech par exemple qui est de modilage je crois. Il y en a plusieurs
concurrents, il y en a qui sont plutôt sur des API donc il faut envoyer ton fichier audio sur
un serveur et récupérer le résultat. Récemment on a eu des alternatives locales qui ont commencé
à être particulièrement intéressantes, notamment whisper. Donc whisper on en a déjà parlé une fois,
c'est un modèle open source de compréhension du langage qui a été fait par OpenAI et qui
est pour le coup open source. Donc vous pouvez le télécharger et le faire tourner sur votre
ordinateur même sur votre CPU grâce à whisper.cpp et l'utiliser dans n'importe quel projet.
On a décidé du coup de partir là-dessus. Ensuite on a plusieurs choix. Il y a plusieurs
tailles de modèles qui vont être plus ou moins rapides et plus ou moins précis. Donc comme d'habitude
faudra faire des concessions. Le modèle le plus gros il doit faire 7 ou 10 gigas et il est excellent
même en français ce qui est rare. Donc il a vraiment 98 ou 99% de compréhension de tout le
vocabulaire même le plus bizarre. Le problème c'est qu'il est très très lent donc pour nous ça
va pas. Ensuite il y en a d'autres, medium base et je vais vous montrer justement ce que ça donne.
Mais grâce à ça on arrive à obtenir une fiabilité qui est correcte et il est plutôt rapide. Une
fois qu'on a du coup transformé notre question en texte il va falloir qu'on génère une réponse.
Donc là dessus on a pas mal bossé pour créer ce qu'on appelle un prompt system. Donc c'est la
première instruction qu'on va donner à la paix de chesh gpt pour notre assistant. Donc tu
voulais je peux vous lire exactement ce que nous on a fait. Donc c'est un assistant,
une assistante même qui s'appelle Michel. Alors pourquoi Michel ? Je me demandais pas mais en gros
c'est un mot qui est plutôt très bien compris. C'est à dire c'est très fiable. On a par exemple
essayé avec Jarvis et ça marchait beaucoup moins bien. Parce que je me suis dit d'ailleurs j'ai
entendu une l'open space on l'appelle comment et j'ai entendu Jarvis et en fait non vous l'avez
pas retenu. Non on n'a pas retenu parce que ça c'était pas toujours compris à tous les coups.
Mais ce qui est très marrant c'est que pour tester je vais faire un petit appartement et pour tester
ça pendant ça fait deux jours que ça a été lancé hier que j'entends Tile dans l'open space
dire ok Michel ou dit Michel dis-moi Michel et moi je bosse à côté. Vraiment pendant deux jours
ça a été ça. Des longues discussions. Ensuite tu as répondu à manière concise et espiegle en
tant qu'assistant de vocale tu discutes oralement avec tes utilisateurs. Ça c'est comme ça elle
est bien consciente de dans quel environnement elle est mais c'est le contexte. Comme ça elle
elle sait qu'elle parle parce que c'est pas si évident. Si tu listes des éléments tu n'en mets
pas trop. Tu es doctorant en informatique. Parfois tu relances l'utilisateur à la fin de tes
réponses pour poursuivre la conversation. Donc ça c'est pour vous montrer à quel point du coup
vous pouvez créer vraiment l'assistant que vous voulez. Impossible évidemment de faire ça avec
des cireaux comme ça. Là tu peux créer vraiment de toutes pièces décidées de la
personnalité de ce que tu veux. S spécialement pour pour tes nuits ou tu n'arrives pas à
dormir. Dans une conversation tu essaies de faire sortir ton interlocuteur de sa zone de confort.
Tu déteste le small talk et les généralités et les opinions floues et consensuelles. C'est
Tile qui a écrit sa chussure. À quoi ça sert justement à éviter un phénomène de chagapéter
qui veut tout le temps créer des conclusions. Je sais pas si vous avez remarqué mais il veut tout le
temps conclure des choses et tirer des leçons et en réalité même avec ça il peut pas s'empêcher
de le faire. Mais c'est pour vous donner une idée du potentiel de modeller exactement l'interlocuteur
que vous allez vouloir avoir. Une fois qu'il a généré sa réponse. Donc déjà il y a la question
de combien de temps ça va durer. Si tu utilises du GPT4 par exemple ça va être très long parce
qu'actuellement le modèle est assez lent alors que GPT3.5 tirait turbo. Lui il est super rapide.
Il va très très vite surtout en ce moment il est capable de te faire des réponses en quelques
secondes qui font des paragrapes entiers. Donc nous on a fait le choix de la rapidité plutôt que de la
surqualité de pertinence en utilisant GPT4. Mais pour garder la fluidité de conversation. Exactement
et puis il y a la question du prix aussi. Ah ok. Et que GPT3.5 est dix fois moins cher. Donc c'est pas
négligeable. Une fois que du coup on a obtenu une réponse dans cette conversation il va falloir
générer la voix. Et là pareil il y a plusieurs options. Il y a des options natives de Mac qui
permettent de générer avec une voix robotique du texto speech. C'est pas ouf. Clairement c'est pas du
tout naturel. Il y a des modèles open source qui existent notamment un qui s'appelle BARC qui
est sorti très récemment et qui permet de générer non seulement des voix mais même des ambiances,
des rires, des pauses. On aurait aimé utiliser ça surtout que c'est open source mais actuellement
pour le faire tourner il faut quand même un gros GPU. Et l'objectif étant de pouvoir faire
tourner ça dans un petit Raspberry ou quelque chose de vraiment léger, et bien pour l'instant c'est pas
adapté pour notre projet. Mais ce serait possible d'utiliser un truc complètement local. La solution
qu'on a décidé de sélectionner c'est une boîte américaine dont vous avez peut-être entendu parler
qui s'appelle 11 Labs. 11 Labs c'est les boss des boss des boss de la génération vous avez
forcément vu passer des démonstrations où quelqu'un parle de manière tellement fidèle que
c'est impossible de savoir que c'était généré par un robot et ben derrière c'était 11 Labs.
C'est ceux qu'on casse le game pas cette semaine mais ça me d'avant parce que chaque
semaine il y a un telètre tout cas que le game. Il y a deux semaines c'était 11 Labs.
Exactement et tous les six mois ils sortent des dingrilles la plus récente étant du clonage
de voix dans n'importe quelle langue. Peut-être qu'on vous montrera des petits essais qu'on a
fait tout à l'heure si vous êtes sage. Du coup tu donnes un échantillon de ta voix ça ça et
t'as essayé de te faire parler en japonais et ça marche ça ça. En gros on a essayé de me
faire parler tout court déjà dans l'assistant. Je pourrais vous montrer ce que ça donne. Mais
globalement c'est un tout petit peu en dessous des voix normales et dans ce cas là moi je voulais
une voix normale d'une assistante donc voilà. Mais je vous montrerai effectivement les deux
versions. J'ai entendu des intros dans underscore ou c'est un fomi code qui parle. C'est un peu badant.
Il est venu l'abs, comment ça fonctionne ? Tu lui envoies une requête dans la pays avec du texte
et tu choisis une des voix pré-configurées et ensuite lui il va te renvoyer de l'audio
qui te suffit du coup de stocker et de faire allire à l'ordi. C'est simple que ça. Ok mais du
coup c'est qui qui l'a lié ? C'est l'ordi. Ah le texte ? Le fichier audio ? Ah oui pardon ok j'ai eu
une absence. C'est l'objectif de Dillé Vénace. Et alors c'est là que ça commence à se
compliquer parce que si vous y réfléchissez et qu'on fait l'addition le modèle qui permet de
détecter la phrase il va en général prendre quelques secondes. Ensuite l'étape 2 chat jpt et
bon prendre entre 2 et 8 secondes. Ensuite il est venu l'abs. Il faut générer des longs phrases
pour prendre entre 2 et 20 secondes. Ce qui veut dire que dans le scénario le plus difficile avec
des longs textes on se retrouve très très vite en fait avec 40 secondes ou une minute de pause en
fait. C'est exactement pour ça que quasiment toutes les démo que vous avez vu elles sont
assez décevantes de ce point de vue là. Du coup on a essayé de trouver des manières d'accélérer
tout ça à chaque niveau. Vous pouvez envoyer chaque phrase une parrainée la faire lire au
feu à mesure ? Et bien justement on a exactement fait quelque chose comme ça. Alors le tout c'est
de trouver un juste milieu pour pas trop découper ton texte parce que sinon tu détectes les coupes
à l'oreille et tu peux avoir des variations de voix un peu bizarres. Mais effectivement
premier truc qu'on a fait c'est de dire on va simplement envoyer la première phrase. Dès
que chat jpt nous a ce que chat jpt on peut soit attendre la réponse totale ce que la plupart
des gens font soit tu peux avoir un stream donc tu obtiens vraiment mot par mot comme dans l'interface.
À partir de ça tu peux détecter dès qu'il y a un point ou une virgule autre comme ça et dire ok ça
on l'envoie directement à notre génération texte et on commence à répondre à ce moment là. Alors
on sait même pas encore ce qu'il va suivre. Et ensuite on récupère le reste de chat jpt,
on continue à envoyer les venlabs et déjà comme ça on arrive à récupérer un bon 30 secondes par
rapport au scénario bet. Ensuite il y a probablement aussi des d'autres trucs à réfléchir pour être
encore plus rapide notamment whisper donc l'outil qui nous permet de récupérer la voix. Il peut
être tweaked de plein de manières différentes pour être plus rapide dans cet temps de réponse.
Aujourd'hui nous on a décidé de faire un compromis où il comprend plutôt bien ce qu'on dit donc
avec le modèle moyen. On pourrait l'accélérer encore typiquement en utilisant la version de
base et pas la version moyenne mais ça détériore significativement ce qu'il comprend.
Exactement. Si on parlait en anglais on pourrait pour le coup récupérer des versions fine tune
de whisper qui elles sont plus petites et largement meilleures. Donc si on veut on peut faire
et chaine clin qui parle anglais et qui est pour le coup ultra rapide. Mais là on préfère faire
du français quand même et quitte à ce que ce soit un tout petit peu plus long. Mais vous allez
voir que le résultat est quand même plutôt pas mal. Je vous propose sans plus attendre qu'on
regarde ça ensemble. Alors pour la démonstration on va imaginer que mon ordi est...
Ça c'est ton écran. Exactement. Ça c'est actuellement son écran. Pour la démo on va imaginer que mon
ordi sera l'enceinte mais techniquement il n'y a rien qui empêche de mettre ça sur un joli
boitier sympa qui s'illumine quand il parle en mode Alexa. Et là ça tourne en local. Enfin local
non mais il y a certaines bricks pour certains bricks et le reste c'est des calls opening.
Donc on a un petit script que je lance. Salut ! Si vous appréciez Ender's Core vous pouvez
nous aider de ouf en mettant cinq étoiles sur Apple Podcast, en mettant une idée d'invité
que vous aimeriez qu'on reçoive. Ça permet de faire remonter Ender's Core. Voilà telle une fusée.
Ok Michel comment ça va ?
Je suis une intelligence artificielle donc je ne ressens pas les émotions. Mais je suis
opérationnelle et prête à répondre à vos demandes. Et vous comment allez-vous ?
Ah quand même.
Raconte-moi une anecdote croustillante.
J'adore les anecdotes croustillantes. Alors savais-tu que le célèbre mathématicien et
physicien Isaac Newton avait un chien qui les met énormément ? Et bien un jour en travaillant
ça marche trop bien.
Un chien a accidentellement renversé une bougie et a mis le feu assez papier. Newton a déclaré
« O dia asteris, asteris, c'est un jour en travaill et parti en fumée. Et c'est ainsi que l'expression
O diamant est née pour remplacer un juron plus vulgaire. C'est amusant n'est-ce pas ?
Ce qui est génial c'est que vu que tu lui as dit t'es spécialisé en informatique ou
de la vie. Et il te donne une anecdote là-dessus mais c'est trop bien.
Exactement.
Je sens que j'étais hypé.
C'est ultra cool.
C'est surtout le passage où il a dit la première phrase et ensuite il a dit la deuxième
phrase. Ça a été méga songe ça l'aurait. Et donc ça a marché trop bien.
Et c'est ça qui est le plus impressionnant je trouve. C'est la qualité, la restitution
de la voix parmi Spar et Devon Labs. Combiner la qualité de réponse de TCHPT. Combiner
à une version très affinée du prompt system.
Mais du coup c'était voulu le petit accent québécois ou ?
On achetait l'exception de cette voix.
C'est super cool.
Vous voulez essayer ?
Vas-y.
Qu'est-ce que tu veux lui demander ?
Elle a un bagage scientifique du coup.
Ok Michel.
Tu dis ok Michel et après tu dis.
Est-ce que tu peux nous expliquer avec le trigger ?
Ah pardon.
Non c'est là.
Non oui mais c'est juste pour que je...
J'en entende dans les mixtures le bon trigger word.
Ok Michel.
Vas-y.
Est-ce que tu peux nous expliquer ce qu'est l'horizon des événements dans un trou noir ?
Bonjour.
Alors là tu vois un des problèmes du truc.
C'est que tu peux pas faire des poses trop longues.
Il faut un peu réfléchir à ce que tu vas dire.
Si tu fais des poses trop longues elle va commencer à répondre.
Ok parce que moi je pensais du coup qu'il lui fallait du temps mais...
Non non c'est l'inverse.
Ok.
Pour plutôt que tu lui poses la question très vite.
Ok ?
Ouais.
Vas-y.
Ok Michel, explique-moi l'événement des horizons dans un trou noir.
Explique-toi sur quel sujet précisément tu es là pour répondre à tes questions et
t'aimes autant que possible.
Que penses-tu de l'horizon des trous noirs ?
Oh là là, il y a un suspense là.
T'es trop noir mais il sait pas ce que c'est.
Désolé parce que je ne comprends pas vraiment de quoi tu parles pour l'expression de l'horizon
des trous noirs.
Bah là les gens ils sont sûrs que c'est une démo.
Je vais vous dire plus sur le sujet.
Je serai ravi de t'aider à répondre à ta question ou discuter avec toi.
Je parle de l'horizon des trous noirs.
Un trou noir.
Ah, je comprends mieux maintenant.
L'horizon des trous noirs est la région autour d'un trou noir où la gravité est
si étonnée que rien.
Pas même la lumière ne peut s'en échapper.
Yes.
Cela signifie que si quelque chose ou quelqu'un tombe dans l'horizon des événements d'un
trou noir, il est piégé pour toujours et ne peut plus être observé depuis l'extérieur.
Est-ce que tu peux qu'il en...
Il est-ce que tu peux qu'il en...
Il est-ce que tu peux qu'il en...
Il est-ce que tu peux qu'il en...
Il est décenni.
C'est un sujet passionnant et complexe à la fois.
Est-ce que tu peux lui demander de développer encore plus?
Dis-moi d'autres choses.
Ah merde, il t'entend aussi.
Ah mince.
Il y a tellement de choses intéressantes à explorer dans le monde.
Par exemple, as-tu déjà entendu parler de la théorie des cordes?
Oh yes.
Oh, on va faire un cours de physique là.
C'est génial.
C'est une théorie très complexe.
Calme-toi, Michel.
Non mais franchement...
C'est très cool.
J'ai juste trop hâte de mettre ça sur ma table 2.
Mais en vrai, si on calcule le temps, c'est...
Enfin, il doit y avoir 3 à 4 secondes à peine.
Et si on prend vers ce...
Une enceinte connectée où parfois ça marche pas du premier coup.
Je pense qu'il y a fight, il y a match.
Et alors justement, vous l'avez vu, c'est pas encore parfait évidemment.
Il y a des problèmes de doublons parfois,
où en fait, elle entend ce qui a été dit avant,
ou alors elle entend deux fois ce qu'on vient de dire.
C'est la manière dont fonctionne Whisper,
qu'il faut qu'on ajuste un petit peu.
Mais le potentiel est là.
Et c'est vraiment incroyable.
En fait, ce qui est fou, c'est que vous l'avez fait en deux jours.
Oui, en un jour.
Vraiment, ça a été commencé hier à midi.
C'est plutôt ça, le truc qui est assez wow dans cette démo.
C'est ça, on a eu une conversation avec bien sûr.
Et en tout cas, j'ai l'impression que le chat est plutôt séduit par l'idée.
Moi, j'ai une question.
Et le veuille chez lui.
Il y a quelqu'un qui veut faire la voix de Jamy et tout.
Mais ça, ça a été...
Ah oui, c'est le...
J'en ai présenté le Dijamy, là.
Oui, c'est vrai.
En fait, c'était un peu basé là-dessus,
sauf que c'était pas la voix de Jamy.
C'était des extraits vidéo.
On devrait pouvoir faire la voix de Jamy.
Et puis c'était aussi sur des extraits de vidéo
que eux, ils avaient déjà essayé de...
Oui, mais ils avaient un peu utilisé même,
genre ils avaient été whisper,
ils avaient utilisé un pas...
C'est juste que, ils avaient pas fait le même légo
avec les différents de brics, on va dire.
Moi, j'avais une question.
Est-ce que le ok Michel sert vraiment à quelque chose ?
Oui.
Alors actuellement, il sert à déclencher la discussion.
Pour pas que constamment, quand tu parles,
il écoute ce que tu dis,
il essaie de te répondre alors que tu t'en veux pas.
Donc ça déclenche la discussion.
Mais comme vous l'avez vu,
il n'attend pas que tu redises le trigger word
pour suivre la discussion.
Et ça c'est génial,
parce que du coup, ça déclenche la discussion.
En combinant le fait que dans le système,
on lui a demandé de relancer l'utilisateur
quand elle a envie,
plus le fait que, par défaut, elle t'écoute,
c'est vraiment fait pour parler comme ça,
comme avec un nubien.
Ça veut dire que si tu lances le script
et que tu dis pas ok Michel,
ça bouge pas.
Exactement.
Il y a quelqu'un qui veut la voix de Tiffany
pour qu'on ne tuera pas là.
Je ne vous conseille pas ça.
Mais du coup, depuis tu fais des insomnies ?
Je ne sais pas parce qu'il est près de 3 heures.
Ouais, 2 heures.
Donc voilà.
Pour ceux qui demandent un récapitulatif de la technique,
c'est Whisper plus 4GPT plus 11laps actuellement.
Mais justement, ce que j'allais dire,
c'est qu'il y a déjà plein de perspectives d'amélioration
qu'on peut faire vite.
Il serait totalement possible de faire une version
complètement locale par exemple.
C'est ce que je vous disais.
Whisper, on peut le faire en locale.
Chat GPT, pas aussi bien,
mais on peut totalement avoir un chat
avec un modèle qui fait 10 ou 15 gigas,
qui est très très compétitif.
Donc par exemple, Viconia,
on pourrait largement le remplacer à cet endroit-là.
Et pareil pour la génération de voix,
avec une grosse machine,
on pourrait trouver un moyen d'utiliser BARC
pour avoir un truc complètement local
qui te suit où tu as envie
et qui est ton assistant du futur.
Oui, parce que là, alors attends,
si je réfléchis bien,
on peut pas encore le hoster sur un Raspberry Pi.
Si, juste, il y a Whisper,
qui doit être un peu lent peut-être,
mais sinon, si il est connecté à Internet, c'est bon.
Ce serait la next step du...
Et un assistant vocal est connecté à Internet de base.
Oui, c'est vrai, oui.
Il manque plus qu'à faire un joli boîtier
et on peut déjà le mettre sur ta table de nuit.
Oh, OK.
En vrai, il y a un concept.
Il y a un concept à faire de fou.
Il y a d'autres idées d'amélioration
qui pourraient être assez ouf aussi.
Donc là, actuellement,
c'est un outil pour explorer le cerveau de châche GPT.
Mais, imaginez maintenant,
on utilise un autre super pouvoir
qui a apparu très récemment,
qui sont les outils, les tools.
Je vous fais un très vite résumé
pour ceux qui n'ont pas suivi.
Il est maintenant possible de connecter des outils au LLM,
donc à châche GPT et compagnie.
Par exemple, un outil de recherche Google,
ou alors un outil d'exécution de code.
C'est pas simplement qu'on donne manuellement
des choses à châche GPT pour lui,
pour qu'il fasse sa réponse.
Vous avez rien à faire
et lui, il peut décider qu'il aura besoin
d'utiliser tel ou tel outil
pour accomplir ce que vous lui demandez.
Imaginez maintenant, ça,
on le connecte avec des outils.
Par exemple, à Google,
par exemple, un outil qui est en mesure
de scanner vos mails,
ou votre agenda.
Et comme ça, vous ayez cet assistant
qui est disponible à n'importe quel moment,
avec lequel vous pouvez interagir
pour effectuer des vraies actions
dans le vrai monde.
Imaginez ça.
Je mets déjà un énorme warning.
Attention, il y a plusieurs trucs que je viens de dire
qui sont très dangereux.
Des plusieurs petits disclaimers.
Actuellement, on n'a pas de moyen
de faire plusieurs de ces choses
de manière safe.
Notamment, il y a des injections de prompt,
on n'en parlera un jour
parce que c'est un sujet passionnant.
Mais, c'est une perspective.
Pareil sur la rapidité,
je pense qu'on peut faire encore mieux.
Mais honnêtement, je pense que d'ici
quelques semaines,
c'est obligé que des gens
aient conçu la version ultime de ça.
Peut-être pas nous,
peut-être des gens actuellement
qui nous écoutent vont le faire.
Mais en tout cas, on est très curieux
de découvrir ça.
J'avais une petite question sur Barc.
Est-ce que c'est lui qui est capable
de faire des...
des choses comme ça ?
Oui.
Je me dis,
pour minimiser le temps d'attente,
la perception du temps d'attente,
il pourrait faire un...
Je vous avoue, c'est clair.
Et je pense que si c'est trop répétitif,
ça va être un peu chiant.
Oui, mais c'est vrai que ça peut marcher.
Pour tricher effectivement en commençant
un peu à parler comme un humain.
Est-ce qu'on fait nous aussi d'ailleurs ?
Complètement.
J'allais dire, nous, quand on parle,
on n'est pas
tout le temps très rapide.
Oh bah l'autre chatte va te le dire !
Je disais ça pour moi, Tiffany.
Non mais je le prends moi aussi.
Je lui ai mis une balle.
Je ne le dis pas.
Non mais on a tous d'autique de l'engage.
Désolé pour ceux qui nous écoutent,
parce que ça doit être un supportable.
Et j'ai vu là...
Ce qui me fait chier, c'est que tout là,
pendant ma conique, j'ai eu l'idée...
Je voulais parler d'un truc et j'ai complètement dit
ça me saoule.
Mais moi j'ai vu dans le chat
des gens me proposer de faire discuter de Michel entre eux.
Et je trouve l'idée quand même.
C'est pas drôle quand même.
Plutôt sympa.
Et sinon,
beaucoup de gens demandaient si ça allait être open source.
Alors oui, avec grand plaisir.
Juste faut qu'on enlève nos clés d'appayés
et qu'on les...
Qu'on les pousse sur YouTube.
C'est une bonne idée.
Après, c'est un script un peu craqueraillé actuel.
Donc c'est vraiment une démonstration.
Oui mais est-ce que c'est pas ça que les gens...
Oui, oui.
Moi je pense qu'il faut...
Non mais t'inquiète pas.
Il faut s'enlever la contrainte du TOF.
Aucune pression.
On voit l'envie.
Le Code au peuple.
Très bien, très bien.
Moi ça m'a fait penser...
J'essaye de me bler pour essayer que tu me trouves mon idée.
Oui mais je vais pas retrouver, je pense.
Mais c'était à la sortie de chat de GPT,
c'était il y a très longtemps.
Il y avait un Siri GPT qui était sorti en raccourcie iPhone.
Tu pouvais l'installer comme ça.
Et en fait ça utilisait Siri pour qu'il comprenne ta voix.
Et après il l'envoyait.
Oui c'est ça.
Donc c'était beaucoup plus simple à rien avoir.
Mais du coup ça m'a fait penser à ça.
Et en vrai ça m'a marché un peu.
Enfin c'était vraiment un Siri qui lisait le prompt,
enfin le résultat GPT.
Mais c'était un truc comme ça où ils avaient fait en sorte
de tout automatiser que tu pouvais dire ta question à l'oral.
Ça l'a envoyé à chat de GPT.
Et après Siri l'isait la réponse de chat de GPT.
Et c'est encore plus simple à installer.
Mais dans les faits, je ne l'utilise jamais.
Parce que dans l'ascenseur c'est ma raison.
Mais par contre je trouvais ça assez rapide.
Je ne sais pas comment il faisait pour le coup.
Mais Siri en fait, je ne sais pas...
Déjà Siri je pense que ta génération de voix elle est moins couteuse
parce qu'elle n'est pas ouf.
Oui, oui.
Enfin voilà, il n'a pas une voix très naturelle.
Et après peut-être il faisait le même genre de technique
où il commençait à parler très tôt
sans faire toute la génération.
Bref, ça ne m'est pas revenu.
Ça n'était pas revenu ?
Non, c'est pas grave.
Tu pourras le refiner peut-être plus tard.
Oui, non c'est vrai.
Pour 1°, pendant les mises.
Non mais ultra cool, en vrai ça pourrait être un produit.
Alors comme d'habitude.
Oui, alors il n'a pas de produit.
Partuellement ton produit peut être refait par quelqu'un
en une demi-journée.
Avec un imprimant 3D.
Non mais justement, tu vois, il y a des gens qui ont la flemme.
Il y a un qui me fait ton assistant dans un mini R2D2 assez bien stylé.
Avec une prise d'interface pour mettre ton prompt system.
Oui, j'avoue.
Tu m'as convaincu.
Tu m'as convaincu sur un R2D2, clairement.
Mais si, tu vois, tu fais des différentes figurines.
Sur le fait que tout le monde n'a pas de jour à tuer
pour se faire son assistant de cheveuille.
Clairement non, clairement.
Les gens ont un travail.
Et ça.
Parce que toi, c'est ton travail de faire des projets cool comme ça.
Oui, c'est un con.
C'est pas la vie de tout le monde.

Les infos glanées

Je suis une fonctionnalité encore en dévelopement

Signaler une erreur

Underscore_

IA, Hacking, Robotique — Des conversations de terrain avec ceux qui construisent. 🥨


Partenariats: underscore@micorp.fr


---


Hébergé par Acast. Visitez acast.com/privacy pour plus d'informations.

Tags
Card title

Lien du podcast

[{'term': 'IA', 'label': None, 'scheme': 'http://www.itunes.com/'}, {'term': 'Investissement', 'label': None, 'scheme': 'http://www.itunes.com/'}, {'term': 'Nouvelles Technologies', 'label': None, 'scheme': 'http://www.itunes.com/'}, {'term': 'Tech', 'label': None, 'scheme': 'http://www.itunes.com/'}, {'term': 'Actu tech', 'label': None, 'scheme': 'http://www.itunes.com/'}, {'term': 'Cybersécurité', 'label': None, 'scheme': 'http://www.itunes.com/'}, {'term': 'Développement', 'label': None, 'scheme': 'http://www.itunes.com/'}, {'term': 'Dev', 'label': None, 'scheme': 'http://www.itunes.com/'}, {'term': 'Entreprenariat tech', 'label': None, 'scheme': 'http://www.itunes.com/'}, {'term': 'IT', 'label': None, 'scheme': 'http://www.itunes.com/'}, {'term': 'Robotique', 'label': None, 'scheme': 'http://www.itunes.com/'}, {'term': 'Technology', 'label': None, 'scheme': 'http://www.itunes.com/'}]

Go somewhere