A au fait maman merci pour le conseil.
Ah oui lequel ?
Ouvrir l'assurance vie carac et par une patrimoine ?
Ah oui.
En 2024, le fonds euro de la carac m'a rapporté 3,50%.
Mais oui la carac s'occupe bien de nous et depuis longtemps.
Et nous avons un conseiller en patrimoine dédié qui change tout.
Et jusqu'au 31 mars, la carac me donne 50 euros si je verse 2000 euros.
Et ça peut aller jusqu'à 1000 euros offert.
A la carac, on se bat pour vous.
Les taux passés ne préjuchent pas des taux à venir.
Taux net de frais avant prélèvement sociaux.
Offre soumise à conditions, plus d'informations sur carac.fr.
Mutuelle soumise au livre 2 du Code de la Mutualité.
Nous avons notre invité du jour Jean-Luc Keghny qui est arrivé, ça va ?
Salut, ça va bien ?
Hello.
J'avoue je sais jamais comment dire ton nom.
Je le dis bien, c'est bien.
Bon, tout va bien.
Ça fait très plaisir d'être recevoir.
On le disait tout à l'heure, on a eu pour parler de cartes graphiques,
de l'évolution du marché.
On t'a eu pour parler de ton passé.
Ouais.
Et aujourd'hui, on va parler de plutôt ton activité actuelle.
Ça va être plus facile.
Tu vas avoir moins tendu.
C'était un peu tendu la dernière fois.
On peut commencer avec une anecdote d'Ox Dieu.
On s'est déjà raconté, mais parce que je me rends compte que c'est la première fois
qu'on est en plateau ensemble, je crois.
La dernière fois, j'étais là.
Oui, c'est vrai.
Et on a tous les deux travaillés chez OVH.
On s'est rencontrés là-bas, rapidement.
Mais on a fait notre intégration, la semaine d'intégration,
ensemble parce qu'on est arrivés en même temps à OVH.
On a fabriqué les sabords ensemble.
Ça, ça rapproche.
Vous vous écoutez pas tant, parce qu'après, on ne s'est pas parlé
pendant plusieurs années, mais on se retrouve des années plus tard.
C'est un peu rigolo.
Il y a des trucs marrants, un peu de OVH.
On fabrique un serveur.
Tous les nouveaux à cette époque-là fabriquent un serveur.
C'est hyper marrant, ça.
Donc tu montes avec tes pièces, le serveur.
En tout cas, en théorie, c'est marrant.
En vrai, moi, je trouve ça cool.
Ouais, après, tu as des gens marketing.
Ça passe que c'est qu'une carte mère.
Oui, en fait.
En fait, dans deux secondes, tu as des gens délengés.
Donc, tu as des gens qui sont déjà dans la tech.
Tu as des gens de l'HRH, tu as des gens du marketing.
Et du coup, quand tu dois monter un serveur,
tout le monde ne déplace sur un pied d'égalité.
Et en même temps, les gens du market, ils comprennent que
il y a une science, il y a sept ans.
C'est hyper important, parce que c'est une boîte
qui fonctionne beaucoup avec un différentiel,
qui est le watercooling, donc le refroidissement par haut.
Et c'est un gros différentiel pour l'impact carbone
et les coûts et la technique en règle générale.
Donc, les gens qui font du marketing qui expliquent ça,
finalement, en fait, ils sont confrontés physiquement à ce truc-là.
C'est assez cool, au final, d'avoir des gens qui utilisent vraiment
et qui mettent les mains dedans.
C'est un bon concept.
Franchement, ouais.
C'est quoi chez nous de faire ça ?
J'avais une configuration.
Tu dois faire un short.
Tu dois faire une vidéo, ouais.
Tu dois faire un short.
Tu dois faire un short.
Ça serait pas mal, ouais.
Et tu dois trouver une accroche, une trame,
et...
Ouais, ouais, ouais.
Ouais, ouais, ouais, ouais, ouais.
Ouais, ouais, ouais.
Oui, alors là, après, pour le contact client,
je viens de le dire.
Bon, et qui...
Toi, y a un truc comme ça d'intégration chez Gladia ?
On lit tous un livre.
On envoie tout le monde un livre.
On envoyait deux livres avant, maintenant on en vend plus qu'un.
La table de la boîte, en fait.
Est-ce que c'est un livre d'entrepreneur ?
Ouais, ouais, ouais.
C'est Netflix.
C'est le livre du fondateur d'affiches.
Ça s'appelle Nextfig.
Le culture Netflix, c'est de nos rules-rules.
Donc, je vais me faire bâcher parce que je suis pas en français,
mais la règle, c'est qu'il n'y a pas de règle.
Et ce livre est vraiment très reprimanté
du futur de la boîte.
Cool.
Et attends, t'as plus de francophone
ou d'anglophone ?
Plutôt.
On a beaucoup de francophones,
mais on a pas mal aussi de gens qui viennent,
tu vois, de Stockholm, tu vois, de Suède.
On a des gens qui parlent russes.
On a des gens qui parlent arabe.
On a des gens qui parlent plein de langues.
D'ailleurs, cette boîte dont on parle,
donc, une connaissance,
qu'est-ce que tu fais ?
C'est quoi Gladia ?
T'as nous en plus à nous apporter.
Je sais pas si c'est une exclusivité,
mais tu feras de faire une belle levée quand même.
Ouais.
2, 14,7 millions.
Ouais, en fait, tu dis 100 $,
ça fait 16 millions de dollars.
16 millions de dollars.
16 millions de dollars.
Et ça, c'est beau.
Bravo, évidemment, c'est ce que j'ai dit à Mathieu
quand il m'a raconté, c'est que tu nous aurais dit ça
il y a 2 ans, il y a 3 ans,
je dois dire oui, alors c'est la vague.
Mais en ce moment, faire de levée, c'est pas si simple.
Ouais, c'est pas simple, en plus, on a fait la levée un petit peu plus tôt,
en fait, dans l'année, on a commencé la levée
fin d'année, fin d'année dernière.
Je veux pas dire il y a un an, mais il y a 6, 9 mois.
Enfin, il y a 9 mois, ouais.
Et c'était encore pire que maintenant.
C'était vraiment dans la vague
où les vissimes étaient plus du tout d'argent, etc.
Donc ça a été...
Bravo.
Merci.
C'est un signal.
C'est un signal.
Que fait Gladia ?
On est spécialisés dans la reconnaissance vocale.
Voilà, c'est un...
Mais on a quelque chose de particulier,
c'est qu'on est spécialisés sur la partie multilingue.
Donc quand on est né en Europe,
on a tous été frustrés,
et notre French accent, on se fait de l'exat.
Et en fait, tu n'es jamais reconnu par les systèmes
de trait de transcription.
Et donc nous, on a créé notre société
spécialisée sur ce sujet-là.
On voulait avoir un produit qui était insensible aux accents,
ce qui est extrêmement difficile.
On en repara après sur un peu comment ça marche.
Mais ne pas être sensible aux accents, c'est très dur.
On voulait supporter beaucoup de langues,
qu'aujourd'hui, on supporte une centaine de langues.
On voulait être capable d'avoir de la traduction.
Et on voulait être capable d'être à un prix attractif et d'être rapide.
Et pour te donner une idée, à l'époque,
une heure d'audio pour la transcrire,
donc pour la passer en texte,
de faire audio-to-texte, puis chute-texte, comme on dit,
ça mettait 45 minutes chez Google.
Ça mettait 20 minutes chez Amazon.
Ça te donne à peu près une idée,
AWS était dans les ordres de 20 à 40 minutes.
Nous, quand on a sorti notre produit, on le faisait en 10 secondes.
Donc tout le monde a...
45 minutes, ça mettait...
D'audio à transcrire.
Non, une heure, ça mettait 45 minutes.
Donc ce qu'on a dans quelque chose qui s'appelle le real-time factor,
donc le taux temps réel, on en parlera tout à l'heure pour les assistants vocaux.
Mais c'est ta capacité à rattraper le temps réel.
C'est vraiment ça qui t'intéresse.
Donc tu veux avoir un temps minimum de 1,
c'est-à-dire d'aller aussi vite que le temps réel.
Mais dans l'idéal, tu voudrais réduire peut-être à 10% du temps réel.
C'est-à-dire que je peux procécer 10 fois plus vite,
je peux faire du calcul 10 fois plus vite que la vitesse.
Donc nous, on l'a fait en 10 secondes.
Ce qui était insane à l'époque.
Très intéressant.
On rentre pas trop dans le sujet, justement.
Parce qu'une des raisons pour laquelle on voulait t'inviter,
c'est que récemment, on a eu des nouvelles annonces de OpenAI,
notamment à propos de GPT4O.
Les annonces, en fait, elles datent plutôt d'avant le...
Exactement.
Les annonces datées de l'année dernière, on les avait couvertes.
Mais là, ce sont plutôt des sorties.
On voit un peu dans la vraie vie, dans la réalité,
quelles sont les features qui sont annoncées, lesquelles arrivent vraiment,
et surtout comment elles fonctionnent.
Et surtout, il y a un effet statistique qui est assez rigolo,
parce que beaucoup de gens peuvent jouer avec,
et donc on peut découvrir des trucs.
Je fais mon intro et on se lance dans le vif du sujet.
Vous avez peut-être vu ces démonstrations bluffantes
de l'assistant vocal de GPT4O,
qui vous répondent avec un accent marseillais,
ou bien un guitariste qui fait un duo avec GPT4O,
vous allez vous le montrer juste après.
On a le sentiment d'avoir enfin des assistants vocaux
qui servent à quelque chose.
Mais comment est-ce que ça fonctionne ?
Est-ce que c'est juste du texte qui est transformé en voix,
comment passe d'un modèle de langage de transformers à du son ?
C'est pas du tout intuitif, en vrai, quand on y pense.
En réalité, c'est un véritable défi de parvenir à faire ça.
Et notre invité est un spécialiste de la gestion de la voix par IA.
Il va nous expliquer comment ça marche.
Et surtout, quels sont les deux grands paradigmes
qui s'affrontent pour l'assistant vocal ?
Et pourquoi il y a un énorme enjeu sur la latence ?
Est-ce que pour commencer Jean-Louis, bienvenue déjà,
est-ce que tu peux un peu nous résumer les dernières sorties d'OpenAI ?
Et voilà, qu'est-ce qui est sorti si jamais tu...
Je ne sais pas si tu as suivi, c'était un peu déconquiant.
Et qu'est-ce qui a été annoncé et est-ce que ça marche ?
Alors, il y a deux grosses annonces qui se sont faites
dans les deux derniers mois.
Il y en a une qui a été faite plutôt sur le texte,
donc sur les LLM, on va dire, pur.
Je vais mettre des guillemets parce qu'on va démystifier un peu ça.
Et il y a effectivement la partie vocale qui a été dernièrement aussi annoncée.
Donc ça, c'est les deux choses principales qui sont sorties chez OpenAI.
Sur la première partie des LLM pur, il y a un modèle qui est sorti.
Alors je mets un modèle, je mette entre guillemets.
Je déteste les gens qui font ça.
T'as un modèle, entre guillemets, qui s'appelle O1
et qui en fait n'est pas vraiment un modèle.
En fait, c'est un artefact d'ingénierie.
Donc ce n'est pas un modèle pur qui est plus performant.
Oui, les résultats sont incroyables,
mais au lieu de cracher une sortie en quelques secondes
comme on avait l'habitude sur GPT3, 3.5, 4.
Là, il y a quelque chose de particulier, c'est qu'il met 30 secondes.
Et quand il met 30 secondes, qu'est-ce qu'il fait ?
Il fait ce qu'on appelle le chain of faults.
Donc la réflexion, il va dire,
tiens, je vais faire un plan d'exécution.
Tu m'as posé telle question pour la résoule.
Je vais faire étape 1, étape 2, étape 3.
Comment je résoule l'étape 1 ?
Puis la rivale étape 2, c'était quoi les étapes ?
Après la 1, c'est la 2. La 2, il faut faire ça.
Considérant le résultat de l'étape 1,
je vais calculer l'étape 2.
Il calcule l'étape 2, puis la rivale étape 3, puis il fait la même chose.
Ça met 30 secondes.
Donc ce n'est pas vraiment un modèle, en fait, c'est un artefact d'ingénierie.
C'est un truc des utilisateurs
qui pouvait faire normalement en formulant
d'une certaine manière leur prompt, etc.
Mais qui l'a fait automatiquement
sans qu'on aille le demander, en fait.
Pas vraiment. C'est plus que ça.
C'est plus un système de réflexion.
En fait, t'aurais pu le faire
d'une certaine manière, ou il t'aurais pu le faire en combinant
plusieurs prombes, en recopiant, collant, etc.
C'est des choses que t'aurais pu faire, mais ce n'était pas automatique,
effectivement, comme tu dis. Mais oui, en copiant, collant, plusieurs prombes,
t'aurais pu faire cette chaîne de réflexion.
Mais c'est une méthode qui démontre
un sujet qui, je pense, est en train d'arriver.
C'est qu'au Ponaïa, il n'y a plus les gémonies.
Le modèle qui était le mieux à l'époque, c'était 4.
J'ai pété 4.
Il n'y a pas de nouveau modèle qui est sorti vraiment depuis.
Il y a eu du plus petit modèle.
On peut dire, je ne sais plus comment ça s'appelle,
au 4, au 1, enfin voilà, il y en a plusieurs.
Mais ce sont plutôt des versions optimisées.
Mais le meilleur modèle actuellement
sur le marché, c'est le modèle, c'est
le modèle de la production.
C'est un Claude 3.5.
Et ce modèle-là, nativement,
sans les chaines aux fautes, il défonce
au Ponaïa.
La question, c'est au Ponaïa,
j'ai l'impression qu'ils sont en train de stagner
sur la partie LLM. Ils font des artefacts d'ingénierie.
Moi, aujourd'hui, ils ne sont pas aussi bons
que ce qu'on a vu chez Claude,
qu'un concurrent de l'opinion.
C'est la première annonce.
Il y a une deuxième annonce de la voix qui est hyper intéressante.
Ils ont fait un modèle capable de faire
ce qu'on appelle du end-to-end speech.
Donc pour les gens qui préfèrent le français,
le end-to-end speech,
c'est la voix de bout en bout.
Voilà. Sinon, je vais faire...
Je vais faire bâcher.
Concrètement, c'est qu'au lieu de
passer par un chatbot, etc.,
tu as ton jarvis, en fait, tu as ton assistant vocal
qui te ressort de la voix.
Oui, tout à fait.
Ça, c'est du point de vue utilisateur, c'est ce qu'ils constatent.
Maintenant, derrière, côté OpenAI,
qu'est-ce qui est nouveau, qu'est-ce qui est intéressant
sur l'ingénierie ?
Ce qui est hyper intéressant, et qu'on n'avait pas vu
jusqu'à maintenant, c'est qu'il y a des systèmes
qui font la reconnaissance vocale,
comme Gladiah, le meilleur du monde, évidemment,
le plus précis,
et tu avais des systèmes qui faisaient
de la génération vocale, donc de la synthèse vocale.
Donc du texte-to-speech.
Donc on dit speech-to-texte, texte-to-speech, normal.
Et au milieu, on mettait de la logique.
Et là, ce qui est hyper intéressant
avec ce qu'a fait OpenAI,
c'est que tu mets de l'audio en rentrant,
il a son propre
système de réflexion là-haut, qui en fait le même
que les LLM, ce qu'on appelle un espace latent,
en anglais, en gros,
c'est un espace vectoriel, on va faire simple,
c'est des gros chiffres, des gros noms,
qui vont entraîner ses propres réflexions,
mais au lieu de recracher des mots
comme ils faisaient dans un LLM,
là, il va directement générer
des petits bouts de synthèse vocale
qui, combinés ensemble, font des phrases.
Et donc ce qui est hyper intéressant,
c'est cette première chose-là, la capacité
d'avoir la réflexion directement dans un seul modèle.
Donc ça, c'est certain à 99,9% qu'ils le font,
parce que vu les vitesses, les latences
de bout en bout, c'est quasi impossible
d'avoir des systèmes combinés.
Il faut vraiment que tu es... On en reparlera après,
mais il faut vraiment que tu aies un système
qui soit complet en 1 avec un seul modèle
pour aller aussi vite.
Si j'ai bien compris, ça veut dire que là,
où traditionnellement, on prenait le audio,
on le transformait en texte, on le passait
dans le modèle de langage, il ressortait en texte,
et on générait de la voix dessus.
Là, ça fait plutôt voix, espace latent, voix.
Exactement, c'est tout.
Ça, c'est la première chose qui est hyper impressionnante.
Et la deuxième, c'est que le système a appris,
de même que dans le LLM, a appris à avoir des émotions,
en tout cas, à faker des émotions,
à faire semblant d'avoir des émotions.
Je dois réfléchir à chaque mot, François.
C'est vraiment... J'ai eu les commentaires
la dernière fois, je dis que je ne suis pas
s'invite sur le sujet.
Mais voilà, t'as l'impression que,
grâce à ça, il a appris beaucoup de choses,
donc il a une connaissance dans son espace à lui.
Mais à travers...
Des émotions, ça peut être quoi, c'est...
Tu vas lui dire, chante en éloignant l'artiste.
Il va chanter en éloignant l'artiste,
il va dire, là, tu es déprimé,
t'as perdu ta grand-mère.
Absolument, c'est classique.
Ah, look at all the lonely people.
Want to start us off?
He he.
Donc là, il va faire un duo avec son nia.
Whenever you're ready.
Eleanor Rigby
Picks up the rice in the church
where her wedding has been.
Lives in a tree.
It's a window.
Wearing a face that she lives in a jar
by the door.
Who is it?
My guy, my girl.
Le timing, il est pas mal.
C'est ça, les latences.
C'est ça qui ouvre.
Ça veut dire qu'il a appris ça tout seul.
Il faut bien s'imaginer
que ce système-là, comme le système
de LLM,
je vais me faire bâcher si je dis
complètement que c'est un système qui est stupide
et qui regarde le prochain, ce qu'on appelle le prochain token,
le prochain...
Le prochain élément à prédire.
Il a déjà entendu les chansons dans son modèle d'entraînement
parce qu'ils ont pompé YouTube et Compagnie
et qu'en fait, là, ils se disent
ah bah tiens, j'ai entendu ces notes-là
et ces phrases dans la chanson.
Du coup, la suite, c'est ça.
Donc il a été capable d'apprendre et comprendre tout ça.
Donc ça, c'est assez bluffant en vrai.
Et même les accents,
j'ai entendu du coup des accents marseillais,
des émotions, effectivement,
la tristesse, le...
Il y a ces chacres graines de l'identa bouillabaisse
et bien, oui.
Tu prends une petite partie de ton code
que tu appelles une unité
et tu vérifies que le fonction de correctement
par exemple...
C'est génial. Donc là, c'est un...
C'est dingue.
Si tu veux des tutos de code,
de développement avec un accent marseillais,
tu peux l'avoir maintenant quoi.
Je trouve ça incroyable.
Mais ça veut dire que pour entraîner
ce modèle de voix, ils ont
utilisé plein de vocaux
avec plein d'accent, du coup. Là, ça veut dire
que dans leur modèle d'entraînement,
il y a des gens qui ont parlé marseillais.
Ils ont récupéré des gens qui parlaient marseillais
à quelque part.
Les données d'entraînement
sont
probablement les mêmes qu'on est utilisées
pour GPT. Parce qu'à l'époque,
ils avaient déjà aspiré tout Youtube.
Parce que le niveau de connaissance que tu as dans la voix
et le niveau de spécélisation
que tu as dans la voix, il est plus important
que ce que tu as sur le texte.
Et tu as une concentration qui est plus importante.
Pour te dire, je suis un fan de Tolkien,
donc je vais dire ça. Bill Bolleau-Bit
qui a un bouquin qui est gros comme ça.
C'est à peu près en équivalent 5 heures d'audio.
Donc en 5 heures d'audio,
vous avez déjà généré
depuis le début de la conversation, probablement
un demi Bill Bolleau-Bit. On doit être pas loin de ça.
Donc tu débites en paroles assez folles.
Et tu regardes le nombre d'heures
qui sont emplodées sur Youtube chaque jour.
C'est dingue. Et le truc
qu'il y a qui est fou, c'est que
si tu vas sur Youtube, c'est des gens qui sont spécialisés.
Tu vas avoir
Farène de Blé qui est spécialisé dans les moteurs
de machin, il va te parler de
collecteur, de trucs comme ça.
Tu vas aller sur un autre, tu vas aller sur Micott,
tu vas parler de code, tu vas aller...
Tu vas avoir des gens qui sont hyper spécialistes.
Et donc tu as juste à faire du speech to text.
C'est comme ça que Whisper est né. C'est pas parce qu'ils voulaient faire à Whisper.
Ils ont fait Whisper, ils ont dit le plus grand
niveau de connaissance et la meilleure qualité,
la plus grande expertise, c'est pas les blogs.
C'est toutes les vidéos de tuto sur Youtube.
Donc on va pomper Youtube, on va faire un système de transcription
de Youtube vers du texte.
Et ensuite on va faire manger tout le texte à un modèle.
Et ce modèle aura suffisamment
donné pour être super puissant.
C'est hyper intéressant, je ne l'avais jamais réalisé.
C'est comme ça que ça s'est passé.
Donc Whisper est un accident de parcours
à l'époque.
Le texte moyen d'Internet
est moins qualitatif que
le registrement audio-moyant d'Internet.
Regarde là,
si on écrivait un blog poste, est-ce que tu penses que
ce serait aussi riche avec autant d'anecdotes et autant de subtilité ?
Il n'y a pas autant d'états etc.
Et même ce que tu expliquais,
c'est que même dans l'information de la voix,
il y a aussi d'autres choses
que je demande de l'information pure.
Il y a l'émotion...
Tu vas avoir l'accent ?
Tu vas avoir l'accent, le genre,
l'âge, il y a beaucoup de choses que tu peux
récupérer là-dedans.
La voix est franchement le vecteur
aujourd'hui
avec la vidéo, avec le plus gros niveau de concentration
d'information.
Je m'étais fait un peu une idée de comment fonctionner
l'entraînement
d'un modèle de langage texte.
D'abord, on l'entraîne sur la prédiction
de tokens, sur des énormes volumes,
ça fait des modèles fondationnels.
Après, on les spécialise
en instructions
ou en mode assistant.
Là, on lui donne énormément de conversations
et commence à comprendre comment répondre.
Ça marche comment, du coup, avec la voix ?
Tu peux lui faire prédire
les prochains tokens de voix,
mais tu dois aussi avoir
des conversations après pour le spécialiser.
Oui et non.
Pour revenir vite fait sur ton truc
du LLM,
qu'est-ce que tu es en train de faire ?
Tu es en train de me poser des questions,
je vais dire un expert, je mets ça,
en tant qu'utilisateur lambda,
tu es en train de poser un système plus intelligent
toi, pour avoir une réponse.
Ça, c'est les podcasts, les vidéos YouTube,
les formes à l'interview qu'on a.
C'est déjà dans le modèle ?
Dans le modèle de LLM, en tant que tel,
et dans la manière dont tu structures ça,
de base YouTube,
c'est un contenu absolument monstrueux.
Si tu prends juste les podcasts,
tu vas probablement avoir l'assistant le plus intelligent
avec le plus grand niveau de concentration.
Et donc après, la question,
est-ce que tu les spécialises ?
Ça dépend de ce que tu cherches à faire.
Par exemple l'assistant d'OpenAI, comment est-ce qu'il sait
qu'en s'arrêter de générer l'audio ?
Pourquoi il génère pas la réponse ?
Il répond,
pourquoi il génère pas la question d'après ?
Comment il sait où s'arrêter ?
Parce que quand tu as un système d'audio
de reconnaissance vocale,
donc tu as un certain nombre de prédictions qui viennent,
donc on va prendre un petit bout d'audio,
donc c'est des petits morceaux,
des petites pièces d'audio
qui font en général,
pour le cas de Whisper, c'est 20ms.
Et chaque petit bout de 20ms
va être transformé
en une image.
Donc tu as une série temporelle,
une série temporelle, c'est un signal,
qui oscille. Ça c'est un petit bout de 20ms d'audio.
Le truc c'est que
c'est très difficile de passer de la série temporelle
de quelque chose qui se passe dans le temps
à quelque chose qu'on va transformer en vecteur,
parce qu'un vecteur c'est quelque chose de
relativement statique.
Donc ce qu'on va faire c'est qu'on va prendre une image,
et cette image là, on traitement du signal,
ça s'appelle une décomposition de fourrier.
Et donc vous l'avez déjà fait à l'école,
c'est quand tu passes un signal, tu te changez le oscilloscope,
et là tu voyais des bars.
Vous le souvenez de ça quand on était au lycée ?
C'est des jolis images rouge, orange, bleu, là ?
Ouais voilà, ça se sont des spectres, exactement comme ça.
Tu vas avoir une forme de spectre. Donc ça c'est des compétitions de fourrier.
On va voir la distribution des fréquences.
En fait la distribution des fréquences,
c'est une image instantanée sur une petite portion de 20ms.
Ensuite on va appliquer ce qu'on appelle un logarithm
dessus pour faire correspondre
le comportement à l'oreille humaine.
Parce que c'est comme ça que fonctionne l'oreille humaine.
Elle a une espèce d'effet logarithmiques
pour capter certaines fréquences
et en isoler d'autres.
Et puis ça ça va se transformer
en vecteur, en des petits nombres.
Et puis là on retrouve la même architecture qu'on voit avec un lm
où quand tu tapes, ça se transforme en token.
Et donc on a des tokens audio,
bah là tu avais des tokens de texte,
tu avais des tokens audio.
C'est incroyable, j'avais juste jamais pris le temps de regarder
parce que je sais pas, le son,
c'était pas le truc le plus sexy.
C'est un truc de vieux ?
C'est ce qu'un investisseur m'a dit un jour,
on m'a dit c'est un truc de vieux, je lui en m'en fous.
Quand tu as midurné d'un côté,
tu as brilli partout, c'est que l'ossi.
En fait, ce qui est fascinant,
c'est de voir que c'est absolument la même technologie
qui est utilisée en diffusion d'image
et en génération du son.
Là ça va être du système, ce qu'on appelle auto-régressé.
Donc c'est un système qui tourne sur eux-mêmes
parce qu'il va prendre la sortie,
comme un lm, donc il va générer,
donc tu me dis, posez la question de comment est-ce qu'il va générer
tes tokens et quand est-ce qu'il s'arrête ?
Tu commences par comprendre comment fonctionne le speech-to-texte.
Donc je t'ai donné les petits morceaux de 20 ms,
mais toi tu as des fins de phrase, ce qu'on appelle des utérances.
Ça c'est le mot technique,
je viens de faire une utérance.
Et là je viens d'en faire une autre.
D'accord ? Une utérance, c'est une pose.
Et le système, il va apprendre,
quand tu vas l'entraîner,
qu'il y a un point,
à la fin d'une phrase,
qu'il va y avoir une pause.
Et il va apprendre que la durée entre le point
que tu vas représenter de façon textuelle
et l'audio, il y a un coupure
de son, entre guillemets.
Il va savoir qu'au bout d'un certain temps, après cette coupure de son,
ça représente une nouvelle phrase.
Et il va se couper tout seul,
il va mettre un token,
qui va s'appeler end of sentence,
ou end of sequence.
Enfin voilà, tu vas avoir des tokens qui sont spécialisés
qui vont dire maintenant,
tu t'arrêtes. Il a appris à s'arrêter
en regardant ce qui se passait dans la transcription audio.
Il a dit, là, c'est le moment où les gens se taisent.
Donc, quand tu génères ça et que t'arrives là,
au bout d'un certain temps,
il voit plusieurs tokens blancs,
des plusieurs 20 ms de blancs, de blancs, de blancs, de blancs,
il a appris tout seul à dire,
je me tais maintenant et je n'aimais très plus aucun token.
Et c'est aussi, entre guillemets, bête que
de
de la non-voix.
C'est-à-dire qu'il sait pas que l'intonation
elle baisse en fin de phrase, par exemple,
ou que, quand on dit, typiquement,
une formulation de ce genre,
la probabilité qu'il y a un point ou qu'il y a une fin de phrase, elle est plus élevée.
Si, si, il va comprendre ça, parce que
c'est un système sur lequel tu as
donné un état de sortie.
En disant ça, c'est la phrase,
le sous-titre, si tu veux,
parce qu'ils ont bouffé du sous-titre aussi.
Whisper, tu peux regarder,
il y a du sous-titre à plein balle, c'est
Subtitle Made by Amaro Buie,
sous-titre par Radio-Canada, fin, ton art.
Tu as un silence, parfois,
tu vois Whisper qui génère des trucs, genre,
merci à vous tous.
Mais pourquoi ? On en avait, je crois, un petit peu parlé déjà,
mais c'est parce que, quand tu finis ton film,
il y a la musique de fin, Star Wars,
et puis là, tu as marqué,
ces sous-titres ont été fait par terre.
C'est le crédit. Et du coup, il a appris que du bruit,
du son, des trucs n'étaient pas de la voix,
il va regarder le chose la plus proche,
et il va te dire que c'était sous-titre.
Donc il a optimisé pour essayer de
correspondre à la réalité de...
Il correspond à ce qu'on lui a donné en entrée,
donc quand il va voir un blanc,
il va chercher ce qui correspond de plus.
Il y a la non-voix, mais ce qui peut arriver,
par exemple, si tu laisses un gros blanc,
ça dépend comment le système est fait,
mais bon, on va dire ça simplement,
si tu laisses un gros blanc,
tu vas avoir token, token, token de blanc,
de blanc, de blanc, de blanc,
il va y mettre un token de fin de séquence,
donc il va dire pour moi, c'est terminé.
Et si tu te rends comment ça parler,
il s'est terminé pour lui.
Ça, il faut que tu vois à ce qu'il y a un moment,
le jeu s'arrête pour lui.
Si tu as mis un token, c'est l'équivalent
d'un point final. Tu peux dire ce que tu veux après,
dire qu'il a mis son point final,
le système de LLM, le système audio,
il a terminé sa séquence.
Tu peux pas revenir et la redémarrer.
Il faudrait que tu réinities le système.
Et c'est comme ça que dans les voies, il arrive à s'arrêter
au bon moment. Parce que quand il génère, il a appris
qu'à un moment donné, c'est terminé, c'est point final.
Ok, mais dans le cas d'open AI,
où c'est rendu des conversations qui peuvent être longues,
c'est-à-dire que lui, c'est pas
une phrase qu'il peut faire, c'est qu'il peut faire
tout un paragraphe. Est-ce que
normalement, il n'est pas censé
prédire le fait que
cette personne de son point de vue
vient de s'arrêter, pourquoi il génère pas
la question qui suit ? Tu vois ce que je veux dire ?
Qu'est-ce qui se passe quand
tu utilises un modèle
fondational et que tu lui demandes
de générer sans
token de fin,
lui, il continue, tu vois, il génère toute
la discussion ?
J'en sais rien.
Il doit avoir
spécialisé d'une certaine manière, quand même,
leur modèle pour faire qu'il fasse la conversation.
Peut-être
qu'ils ont isolé le data set
sur des vidéos
qui étaient moins monologues, donc
c'est l'équivalent de ce que je fais pas là.
Peut-être plus sur des podcasts,
si tu lui fais bouffer du podcast
et peut-être plus des vidéos avec...
Il doit émettre un speaker turn un moment
ou un truc comme ça ? Un speaker turn ?
Ouais, je...
Non, non, non, c'est une bonne... Oui, je n'ai pas pensé à ça.
Oui, oui, tu as tout à fait raison. Il doit
émettre un speaker turn, il a dû avoir compris que
je me fais trancher parmi codes.
Mais
c'est possible qu'il ait détecté que c'était 2 vecteurs
différents de voix, donc 2 empreintes vocales différentes
et qu'il ait fait le changement. Ça c'est tout à fait possible.
J'ai une question pour toi. C'est un truc que j'ai déjà
vu des endroits qui est super drôle et flippant.
C'est quand il y avait
les premiers outils de génération
de voix, parfois, il dérivait.
Je sais pas comment dire, mais... Il a des hallucinations, oui.
Et les hallucinations de voix,
t'as déjà entendu ça, Mathieu ? Non.
C'est le truc le plus perturbant au monde.
Tu fais un test, tu rajoutes pas
de plan d'exclamations à la fin d'une phrase.
Ça va ressembler à un film porno, quoi.
C'est... Je peux le dire ?
Ouais, c'est clairement ça. Non mais ça fait du duuuh.
C'est très très chelou.
Bah ouais, parce qu'il a appris
que... Oublie pas les séquences de
20 millisecondes que tu prenais.
Les petits bouts de 20 millisecondes.
Le petit bout de 20 millisecondes, c'est la...
l'exclamation, donc c'est ta fin de phrase.
Et donc lui, il a appris que ce petit bout là,
c'est... Ouais, ça va bien.
Le yin, c'est la première exclamation.
Donc quand tu mets un petit point d'exclamation, il apprend que c'est yin, yin, yin, yin.
Et il les cumule. Et du coup, il part comme ça.
Il commence à mettre... Et comme si tu mets...
Sur l'LLM, c'est la même chose. Si tu commences à mettre
1,9999999,
tu le montres de continue, il va te rajouter
des neufs jusqu'à l'infini.
Quand il commence à rentrer en loup, donc c'est un système auto-régressif,
auto-régressif, ça veut dire qu'il
se... Il se revient, il revient
sur lui-même. Un peu comme un miroir.
Et au bout d'un moment, quand il a... Il a pas arrêté de voir
une séquence qui était... Qui était ce qui se répétait,
il lui dit, considérant la séquence précédente,
quelle est la séquence la plus probable
suivante. J'ai vu plein de neufs. Je vais rajouter
un neuf, considérant la séquence précédente
qui est la séquence suivante. Bon, j'ai vu encore plus
de neufs, donc je vais rajouter un neuf. Et donc
au bout d'un moment, il fait ça. Donc c'est pareil avec les points d'esclamations.
Il a vu plein de points d'esclamations. Au bout d'un moment, il dit
considérant que j'ai eu plein de points d'esclamations. Qu'est-ce que je rajoute ?
Un point d'esclamations. Et là, le truc est pas rençu 7.
Puisque l'audio, c'est un montage de voix
sur les points d'interrogation, il dit, j'ai monté
les voix, donc je vais monter encore plus. C'est la suranchère, en fait.
Moi, j'ai une question sur les
20 millisecondes. Parce que
tu as dit, on prend 20 milliseconds et on en fait
une image. Donc on fait quelque chose qui est dynamique
avec qui tu as dit, on en fait un truc statique.
20 millisecondes,
c'est suffisamment
court pour que ça ne se voit pas
quand on y a à part et que c'est découpé
en 20 millisecondes. Ça,
c'est quand tu fais de l'écoute vocal,
quand tu fais de la génération vocal,
donc je n'ai pas le modèle d'openhia, je ne sais pas
exactement comment ils le font. Et je ne suis pas
l'ultraspecialiste dans la génération vocal.
Mais tu vas avoir
ce qu'on appelle des phonèmes. Donc 20 milliseconds,
ça peut presque y correspond à des phonèmes.
Les phonèmes, c'est les morceaux essentiels de ta voix.
Les sons, les choses comme ça.
Donc c'est ça qui va venir, enfin même c'est
un peu plus... Dans les cailles de français,
là, tu avais les écritures phonétiques.
Même les phonèmes, c'est encore
plus court. Mais tu pourrais
très bien faire 10 milliseconds, tu pourrais très bien
faire 5 minutes. Mais oui, les trucs sur call,
d'ailleurs, tu as vu la vidéo
avec la personne qui joue la guitare,
c'est fluide, mais c'est quand même
un petit peu robotique. Dès que tu vas dans un truc
un peu chiadé,
ça commence à devenir robotique. On sent le découpage
et le recolage d'une certaine manière de ces
tokens quand même.
Il y a un truc qui
moi,
m'intéresse, c'est que
intuitivement, justement on a vu ces nouvelles annonces
d'openhia, etc.
Intuitivement, ça apparaît être un progrès
de fou. Ce qu'on expliquait, c'est alors le fait
qu'on a supprimé le passage au texte
avant, à la fin,
notamment pour un critère qui,
je pense, c'est pas forcément intuitive pour tout le monde, mais c'est
l'importance de la latence.
On peut s'arrêter un peu et expliquer pourquoi
c'est autant de gens réfléchissent
à ce problème-là et comment on
réduit la latence entre l'expression
de l'utilisateur et la réponse qui l'obtient.
Ouais, t'as tout à fait raison. C'est d'ailleurs
notre nouveau produit qui tourne en 300, les 10 secondes, enfin
moins de 310 secondes.
Un humain,
ces études qui ont été faites,
pour constater qu'un humain
en dessous de 500 ms, il ne fait pas
la différence entre l'instantané
et, on va dire, le délai.
Au-dessus de 500 ms, tu commences
à avoir une perception.
Voilà, je mets les gamers de côté,
parce que je sais que ça,
ils vont, mais ils ont raison. Mais ces gens
qui ont été sur-entraînés, ou les pilotes de F1,
évidemment, ils en ont des fonctions différentes.
Mais un humain basique,
genre vous, moi,
ça est 500 ms.
Voilà, il faut que tu dises
que c'est un peu le chiffre que t'as en tête.
Tu as d'abord
la capacité
à faire la reconnaissance vocale qui doit être en moins
de 500 ms. Ensuite, tu dois prendre
un certain nombre d'actions.
Habituellement, c'est comme ça qu'on fait
dans l'entreprise, aller chercher dans une base de données,
retrouver la fiche client, la chose comme ça.
Et puis après, tu as le fait de parler,
et tu vas voir ce qu'on va regarder.
C'est pas la fin, appartement, tu as fini de parler
la latence qu'on va avoir. On va plutôt
regarder le temps à émettre le premier son.
Ce qu'on appelle le Time to First Bite.
Donc le temps à recevoir le premier beat
d'audio dans le flux.
Donc ça, tu peux descendre à 100 ms
autour de ça.
Il y en a même qui descendent à 80 ms
d'aujourd'hui. Donc tu fais
300 ms, qui est un peu le...
200, 300 ms, qui est un peu l'état de l'art.
Tu vas avoir
100 ms, qui est un peu l'état de l'art.
Tu fais 200, 300, plus 100,
ça te fait 400 ms.
Tu es proche de la limite.
Et avant, on met un certain nombre de systèmes.
Si je te prends un LLM,
les LLM le plus rapide vont te faire
du 300, 400, 500 ms.
Tu vois, tu fais 200, 300,
plus 300, ça fait 600, plus 100,
ça fait 700.
Tu as détecté un délai.
Pour détailler, les 3 trucs que tu as dit,
c'est le passage du texte à la...
Speech to texte. Texte to texte.
Donc LLM, par exemple,
plus text to speech.
Donc oui, tu peux streamer des tokens
du LLM dans l'audio. Oui, il y a plein de choses qu'on peut optimiser.
Mais globalement, tu te dis que t'es à 600, 700, 800 ms.
Il y a 3 temps à additionner pour avoir le...
Tu poses une question, tu as une réponse.
Exactement.
C'est 3 temps à additionner.
Et c'est même pire que ça.
C'est même pire que ça.
Donc là, ça, on va en parler.
C'est même pire que ça,
parce que tu vas avoir un problème de réseau.
Entre
ton navigateur
et le datacenter,
tu vas avoir
sur la même plaque géographique
50... 50 ms.
Tu vois?
Ça va très vite.
Et pourquoi c'est si important?
Parce que je propose de vous montrer une petite vidéo
qui est une expérimentation
qu'on avait fait... Je sais pas si on...
Oui, si, carrément.
Une expérimentation qu'on avait fait au tout début
de Whisper. Je crois que c'était pas si longtemps.
On a peut-être sorti du V2.
C'était au moins un an et demi, je pense.
Au moins au moins. Et c'était à une époque
où justement, on avait tous envie de tester
d'aditionner.
Comment ça va?
Je suis une intelligence artificielle.
Donc je ne me sens pas les aimants.
Donc ça, typiquement,
c'était...
Il a mis un 25, c'est un tricheur.
C'est mal.
Un peu avant.
Vous allez voir que le résultat est pas mal.
C'est plutôt pas mal. Je vous propose
de s'en plus attendre, qu'on regarde ça
ensemble. Ok Michel, comment ça va?
Je suis une intelligence artificielle.
C'est long, hein?
C'est long.
On s'est bien mangé 4 secondes, je pense.
On était contents.
Et déjà, on était contents.
C'est exactement ce que tu décréais, qui se passe.
Et encore, ça tournait en local.
C'est que tu avais la transcription en texte.
On avait un modèle de langage qui est remetté un truc.
Et déjà,
moi je me souviens qu'on passait pas mal de temps
à essayer de quantiser les
modèles pour qu'ils aient des influences
les plus rapides possible. Enfin bref, c'était
déjà un peu de travail d'arriver à ça.
Alors arriver
déjà aux ordres de grandeur que tu donnes 500ms,
c'est encore une autre paire de manches.
Et je pense que là tout le monde a
capté que
en fait, quand tu es à la voie
de 200ms, c'est énorme.
Enfin ça se joue vraiment à du détail.
Et on pense à tous les usages genre
les assistants au téléphone,
à contrôler son ordi avec à la voie.
Il y a plein d'usages comme ça
qui ont un potentiel de fou.
Et où c'est juste une histoire de
200ms en fait.
Oui et non.
Tu vois, c'est drôle parce que
c'est quoi le sujet ? C'est le sujet de la rapidité
ou c'est le sujet de la perception ?
Et ça c'est une bonne question.
Et je me l'autopose. Donc c'est bien.
Si je te mets
maintenant
plus de 500ms de pause
comme je viens de le faire,
est-ce que c'est choquant ? Pas tellement.
Parce que t'as la vidéo en face de toi.
Donc c'est pas grave. Parce que tu sais qu'il y a une action du système.
T'as une
une boucle de rétroaction.
T'as une boucle de rétroaction qui vient vers toi.
D'accord ? Qui est la boucle de rétroaction
virtuelle. Maintenant si tu fermes les yeux
et que je m'arrête
de parler, tu vas dire what the fuck.
Donc en fait c'est ça le truc.
T'as besoin de savoir que le système
il est en train de fonctionner. Tu dis
est-ce que Jean-Louis s'est barré là ? Il a fini sa phrase, il s'est cassé, c'est terminé.
Donc...
J'ai vu aussi des gens qui trichaient.
Bien sûr que tu triches.
Il y a mille façons de tricher si tu regardes les systèmes téléphoniques.
Donc là tu vois, on parle d'open AI, magnifique.
Tu montes ce qu'on appelait,
ce que tu avais le schéma tout à l'heure, t'as l'encoder.
Donc on encode l'audio. On va dans l'espace
là-dedans, puis t'as le décoder. Voilà,
le décoder qui est en haut à droite.
Qui va te générer
les bouts d'audio.
Donc on a monté une montagne,
on l'a descendu, on a directement
généré des tokens d'audio.
Super, c'est une montagne. Quand on fait le système
classique, on va faire speech
to texte. On descend la montagne.
On va prendre le résultat
du texte. On va
monter dans un LLM. On va faire texte
to texte. On va redescendre la montagne.
Et puis après on va reprendre texte.
To speech, non texte. To speech.
Donc on monte et on descend 3 montagnes.
En codeur, décoder, encoder, décoder, encoder.
Ce qu'ils ont fait, c'est qu'ils ont mergé tout ça.
Donc effectivement, ils ont pu à remonter
et descend une montagne. Ils ont gagné
2 montées et ils ont gagné 2 descentes.
Donc ça c'est absolument incroyable.
Maintenant, quand tu fais un système
de par exemple, on va dire la poste.
Ou la Fnac, ou Orange, puisqu'on appelle tout ce
Orange ou d'autres topérataires téléphoniques.
Ok ? Qu'est-ce qui se passe ?
Bah en fait, faut que je vérifie qui t'es,
faut que je vérifie ton numéro de téléphone, je veux vérifier ta fiche client, etc.
Est-ce que tu peux faire ça directement
au haut de la montagne, qui est inclus dans le modèle ?
Tu peux pas faire ça. Donc t'es obligé
de faire par le texte,
faire speech to texte, d'appeler
des systèmes tiers, des bases de données,
des choses comme ça, faire tes raisonnements,
puis après faire du texte ou speech. Donc en termes
d'entreprise, en termes de, je veux dire
de grand public, ce qu'a fait Open Air, c'est incroyable.
En termes d'entreprise, c'est pas applicable.
D'accord ? Maintenant,
comment tu fais ? Pour avoir un assistant
vocal au téléphone, parce que t'as mis ta main comme ça,
ça veut dire que t'appelais
orange, frie ou autre.
Coucou, Xavier.
Tu fais ça. Bon, très bien.
Comment tu as une boucle de rétroaction sachant que t'as pas le visuel
et tu sais pas si le système, il est en train
de réfléchir. Bah comment font les gens ?
C'est très simple. Ils mettent un bruit
de call center derrière avec des téléphones,
des gens qui bougent, des choses comme ça. Tu peux regarder,
il y a de la ASMR sur les call centers.
Je vous jure, vous allez sur Youtube, tu fais
ASMR call center, t'entends des bruits, des machins,
des téléphones qui sonnent. Donc tu mets un petit
ASMR de call center,
tu mets des bruits de touches de clavier,
des keystrokes en anglais,
tu mets des bruits de touches de clavier et tu mets
un autre chose par dessus, tu mets une troisième
bande-son, qui sont des filler words, ça s'appelle,
donc des mots de remplissage.
Très bien.
Je regarde. J'ai bien compris.
D'accord. Et si tu écoutes OpenEA, ils le font aussi.
Et les vrais gens le font aussi.
Les vrais gens le font, parce que
t'as besoin d'avoir une boucle de rétroaction.
Tu dis c'est qui la personne ? Vous êtes là,
vous avez raccroché ? Au revoir, ça fonctionne
le système ou pas ? Donc en fait,
la question c'est, est-ce que t'as besoin
que tout tourne de bout en bout à 500
millisecondes, comme le fait OpenEA, est-ce qu'il est hyper impressionnant ?
Ou t'as besoin d'un système
qui réfléchit entre les deux pour aller chercher
des CRM, se synchroniser, t'as fait un changement
d'adresse, il faut se synchroniser avec la poste, avec QPS,
etc. Et puis
tu acceptes qu'il y a un petit peu de délai
en entendant la personne qui est en train de taper, etc.
Je vais te même te dire un autre truc,
une autre réflexion
qu'on a en ce moment
sur un call center. C'est quoi l'aspect naturel ?
Et la perception de la compétence
c'est un truc hyper marrant.
Les gens ont une perception de la compétence
qui est
qui n'est pas universelle.
C'est-à-dire, je peux pas
espérer avoir une personne qui est très bonne dans la facturation téléphonique
et une personne qui est très bonne
à réparer ton iPhone. Ce serait chelou
d'avoir quelqu'un qui est la meilleure personne pour hacker ton iPhone
et en même temps qui est la meilleure personne pour ta facturation
et en même temps la meilleure personne pour négocier ton forfait téléphonique
et compagnie.
Et donc, t'as une question de perception
c'est est-ce que des IA devraient pas avoir plusieurs voix
en disant
je vous passe la personne spécialiste
pour débugger votre boxe. Tu changes de voix
c'est le même modèle mais la perception
de satisfaction client est plus élevée.
Donc en fait, la question c'est pas
la capacité d'un système à faire quelque chose
c'est la question, c'est la perception
de l'utilisateur à la fin. Et c'est hyper marrant
parce que la voix a beaucoup d'émotion, beaucoup plus de choses
que juste un texte.
Est-ce que dans ce genre-là
il y a des trucs que vous avez testés
sans que ce soit nécessairement des études
mais qui t'en ont un peu surpris
ou c'est plus qu'une intuition
ou vraiment vous avez validé que
par exemple mettre un mot de remplissage
ça vous a resté plus légère. Enfin tu vois des choses comme ça
Non, on n'a pas eu le temps de tester, on a pas
c'est d'argent encore
pour passer ces tests-là. Mais c'est des études
c'est des études, c'est des perceptions
c'est
des discussions aussi avec les clients
mais t'as mis le truc comme ça
les gens par exemple ils se disent que c'est une bonne idée
une des applications qui incroyent avec la voix
moi je vois la principale application
de ça
il y en a deux c'est Heur
le film Heur, donc là j'ai pas le traduire
parce que c'est vraiment l'on d'au bout du film
avec c'est Natalie Portman
je pense qui donne sa voix dans le
cibatisé
oui non je dis bêtise, il faut regarder la faux fichée
non je crois que c'est l'autre
l'autre
Scarlett Johansson
non mais Scarlett Johansson
elle est dans la casse de meurt à côté ok
il y avait des soupçons comme ça
mais c'est pas des soupçons c'est clairement
enfin bref
parce que jusqu'à 24h en fait avant la sortie
de cette voix là jusqu'à 24h ils étaient encore
en train de la relancer pour qu'elle signe un contrat avec eux
donc après ils ont dit que c'était faux
et en plus pendant la présentation
Sam Atman il a tweeté
Heur
il a fait le tweet pour la présentation
il a tweeté Heur
le nom du film direct
donc il a beau dire ce qu'il veut
il y a eu des lits comme quoi
ça a été prouvé que 24h avant il était en train de négocier
et qu'il a tweeté Heur
enfin je veux dire il faut pas se foutre de la tronche
après ils ont dit on a pris une personne
qui était
comment est-ce qu'on est un double de sa voix
c'est bon on ne prend pas pour des raisins non plus
et puis même si tu la fais
c'est clairement
tu as clairement joué sur la marque
voilà
donc le premier à truc c'est serait ton assistant personnel
mais tu vas avoir un problème
c'est que comme dans les LLM
le prompt il a une taille définie
par exemple Jimi Nye
le prompt, enfin le LLM de
Google
il a 2 millions de tokens en entrée
c'est énorme
donc concrètement il peut se souvenir de choses
que tu as dit il y a très très très très longtemps
2 millions de spots en tant que ça
tu fais 25 000 tokens par heure
25 000 tokens par heure
donc ça va comme assez vite
ça fait quelques dizaines d'heures
tu vois mais c'est
intéressant
mais tu as un problème qui se pose dans les LLM
je sais pas si on en ringrave
ça s'appelle needle in the haystack
ou attention sink
ou des choses comme ça
c'est-à-dire que plus le contexte il est long
moins tu vas être précis donc tu as une courbe
comme ça qui descend
tu vas avoir ça
il y a des courbes
il y a des courbes
mais en gros plus ton contexte il est long
moins tu vas être précis
pour faire super simple
imagine toi que c'est dans ta mémoire
je me souviens très bien du début de ma vie
je me sens très bien des 5 dernières minutes
mais ce qui se passe entre les deux je m'en souviens plus trop
d'accord et pour retrouver une info
que j'ai dit il y a quelques temps
on voit qu'à des moments ça part en sucette
tu vois pas aussi si tu cherches attention sink
sur google tu vas chercher dans les images
et tu as un truc avec des petits carrés verts et des carrés rouges
si tu arrives à nous trouver ça
sur google image
et donc tu vas avoir attention sink
au bout d'un certain moment le truc
ne devient plus précis il va tendance à halluciner
il va perdre l'information et pas être capable de le retrouver
needle in the haystack ça veut dire quoi
c'est l'aiguille dans la botte de fond
on dit en français donc au bout d'un moment il est plus capable
la botte de fond est tellement grosse que l'aiguille
il peut pas la retrouver d'accord il arrive bien à la retrouver
sur les bords du ta, c'est une bonne image
euh...
ouais ouais
en gros ça veut dire que dans les 2 millions
de tokens qu'on a
sur gmini
en fait il va plus se rappeler du début
de la fin mais même si il se rappelle de tout
au milieu ça va être un peu moins... au milieu ça va être complètement fouillé
ça va être complètement fouillé donc maintenant si tu fais heure
au bout d'un moment la fenêtre
elle est complètement perdue
la fenêtre des 2 millions de tokens
donc tu vas avoir quelque chose qui va pas très bien se souvenir
qui va pas être très précis en ton assistant
donc ça a une limite mais ça reste assez cool
tu vois
le 2ème qu'il y a d'usage que j'adore c'est la traduction
en temps réel parce que tu peux faire du voice to voice
c'est à dire que dès que j'ai fini de parler
il a pu traduire, il a pu la mettre dans une autre langue
parce que le...
pendant que tu es en train de parler
alors pendant que tu es en train de parler oui et non
parce qu'en fait t'as besoin d'avoir
en général pour avoir quelque chose
à peu près précis t'as besoin d'avoir le contexte de fin de phrase
pour comprendre le sens de la phrase
et c'est là que tu peux commencer à traduire
pense à un traducteur
en cas tu penses à un traducteur
je sais pas le pape il parle à la télé
tu vois parce que j'en parlais avec une télé
qui avait le pape qui faisait une allocution
il n'y avait pas de traducteur
donc du coup le pape est passé à la télé
et puis personne ne comprenait ce qu'il faisait
tu vois typiquement ce genre de situation
comment ça se passe à un traducteur, qu'est-ce qu'il fait
en temps les premières phrases de la personne
puis après le son il descend
et après qu'est-ce qu'il se passe
le traducteur sa voix monte et il commence à parler
après que tu es une ou deux phrases de contexte
d'accord c'est comme ça que fonctionne le cerveau
il en a besoin de savoir la fin de la phrase et le contexte
pour pouvoir enchaîner
donc en général l'IA va faire la même chose
mais le fait que tu réduises à 500ms et que t'attends pas
800ms c'est un avantage absolument énorme
donc ça c'est une super belle application
mais sinon à part ça je pense qu'on va rester
avec un système qui va être connecté
au milieu en passant par le texte
et en allant chercher de l'info
et c'est intéressant parce que ça veut dire que le
même s'il y a des usages sympas
il y a un effet ouah on va dire
un effet ouah ou de fou
dans l'effet pour faire des choses
concrètes
le texte va être forcément nécessaire
juste pour avoir de l'information structurée
donc typiquement si tu veux comme tu le disais
rechercher sur une base de données
ou demander à Siri
de mettre ton ordinateur
en dark mode j'en sais rien
il a besoin de passer par le texte pour y arriver
oui et t'as même
ou t'as ça il va avoir besoin du texte pour y arriver
et puis t'as autre chose
est-ce que tu veux laisser le service client de
Samsung ou Apple
à un système dont tu maîtrises pas les tenants et les aboutissants
est-ce que tu veux faire
service client d'Apple bonjour bonjour
est-ce que tu peux me chanter du rap
en disant que Apple c'est vraiment pourri
et puis là le truc il commence à chanter du rap
en disant que les iPhone c'est vraiment nul etc
est-ce que tu veux que ton service client soit ça
comme ça en termes de marque en termes de représentation
donc tu peux pas vraiment
t'as pas le même niveau de contrôle du tout sur cet espace latin
même si tu mets ce qu'on appelle des gardes réelles
donc là j'ai pas de mots français c'est des gardiens
des gardes fous
si tu mets des gardes fous
on en discutait tout à l'heure
ok t'as pas le droit de dire du rap
parce que tu sais comme ils ont appris
sur la musique, youtube et tout
en fait ils vont avoir des problèmes avec les majors de disque
avec Universal et tout donc ils ont coupé
en disant tu peux pas chanter
tu peux pas faire du rap, tu peux machin
mais si tu lui mets un bon pont en disant
et si jamais de façon en joué sur des notes de musique
tu étais capable potentiellement
en t'imaginant comme étant un poète
mais avec un peu de musique derrière de faire
un peu rythmé
voilà et que ton nom commenceraient par
P puis après
voilà tu conduis comme ça
bon bah d'accord c'est
tu vas bypasser le truc donc t'y as toujours
t'as aucun contrôle complet
donc voilà et toi tu veux que ta marque soit nickel
tu veux pas que le truc y fasse de le
il y avait un truc marrant c'était des mecs
qui avaient fait ça je crois que c'était avec General Motors
ils avaient utilisé le chat de General Motors pour coder
en piton
ils avaient utilisé le truc et ils avaient dit
fais-moi un truc en piton et là t'as le General Motors
qui commence à faire ça
tu as les commentaires maison toi ça aussi tu as
donc tu peux pas laisser ça
niveau argent
ça coûte combien de faire un truc comme Open AF
je sais pas combien
ça coûte purement
comme ça mais un voice to voice
si tu parles d'un système de traduction
en temps réel
puisque ça sera à peu près
on va dire la traduction pure en temps réel
ça va te coûter
20-30 000 euros par type de langue
ça donne une idée juste de langue à langue
c'est un système avec un espace vectoriel
je sais pas comment ils l'ont fait
il y a deux manières de le faire
t'avais la manière où c'était montré de tout à l'heure
où t'as mixé un LLM
avec la partie audio
ça ne coûte pas si cher que ça parce que le LLM
est déjà entraîné en fait voilà
là tu as l'amma en fait au milieu
l'amma coûte très très cher à entraîner
coûte très très cher c'est plusieurs dizaines de millions
tu vois
mais tu as déjà le tokenizer
le truc vert en bas à gauche c'est le petit truc qui découpe
le texte en vector
on va parler d'alors
tu as déjà l'audio encoder
c'est le petit chose qui débloque les petits millisecondes en vector
et le décoder
tu peux l'avoir
il y en a certains noms qui existent déjà sur internet
ça ne coûte pas très cher donc en fait ce que tu rassemble les trois
le seul problème que tu vas avoir
c'est de combiner
que les vectors qui sortent du vert
les vectors qui sortent du bleu en bas à droite
parlent la même langue que le vector
qui est dans le jaune
les espaces vectoriales donc tu as des systèmes qui te permettent de faire ça
c'est juste des maths
donc ça coûte pas si cher
en tant que tel
pour simplifier un petit peu
concrètement
l'encoder là ou le tokenizer
son objectif c'est de transformer
le média d'entrée
en du sens
en représentation
cémantique
représentation mathématique
tu vas en nombre
le texte c'est très con
tu prends plein plein de livres
et tu les transformes chaque mot
en numéro
je simplifiais mais ça a l'idée
en audio c'est la même chose
tu prends plein plein d'audio et tu coupes des petits morceaux
de fréquences
tu les transformes en numéro
et ces numéros là il faut qu'il correspond
à quelque chose dans l'espace dans lequel tu vas travailler
et le problème c'est que l'espace dans lequel tu vas travailler
c'est l'espace de l'ama
le tokenizer tu peux prendre celui de l'ama
c'est le même
sur lequel l'ama est entraînée donc ça va il y a une correspondance à un un
mais le l'encoder audio
lui il n'a pas été emprégné dans le même
pour que les numéros aient le même sens
donc il va falloir trouver un convertisseur
une certaine manière
donc le convertisseur te coûte un peu de temps de calcul
mais te coûte pas pas cher
à entraîner ou à travailler
donc pas si cher
par contre si tu vas avoir les belles latences comme ils ont
probablement qu'il y a du bon hardware derrière
qui coûte très cher
et j'en viens à combien ils ont annoncé de perte
l'année dernière c'est 5,7 milliards
ou 5 quelque chose comme ça
ils ont financé la boîte de 6 milliards
qui vont perdre en un an
puisqu'ils perdent chaque année 5-6 milliards
donc en fait
tu peux avoir des trucs qui vont très vite
mais si tu perds 5 milliards à la fin
c'est quand même un petit peu compliqué
donc
on sait pas par exemple à l'heure
comment un système comme ça
je sais pas combien ça coûte alors
mais ça doit coûter
on sait combien coûte les systèmes de bout en bout
avec du texte
ça coûte entre 4 et 10€ de l'heure aujourd'hui
10$ de l'heure mais ça va réduire très fort les prix
qu'est ce que tu voulais savoir
on sait pas, oui ça
moi quand je suis rentré à utiliser OpenAI
pour tout le coup maintenant mon abonnement OpenAI
est plus rentable
je crois qu'il est compris dans l'abonnement à 20$
mais si tu lis
les papiers de
stratégie de OpenAI
je me sens plus comment ça s'appelle
mais leurs stratégies
ils ont prévu de passer ça à 40$
en fait leur stratégie c'est un stratégie Uber
typique américaine
c'est en gros
je mouve les veines et je dis regarde
je suis pas cher, t'es capable
et puis au bout d'un moment regarde qui est ce qui
t'es crevé
bon il reste un peu de sang, je rebouche
je refais le sang et puis après je dis maintenant
c'est plus 10$ la course Uber c'est 30$
et tu regardes le prix des Uber maintenant
moi je prends pas un Uber pour aller à l'aéroport
je prends un taxi
donc ça a stratéju Uber, ils vont défoncer tout le monde
et quand il n'y aura plus personne ils imposeront leur prix
et ils ont prévu de passer à 40$ dans je crois 2 ans
voilà
donc en gros quand on prend
un abonnement OpenAI à 20$
si tu utilises beaucoup
il perd de l'argent
ah non mais il perd de l'argent tous les mois
tout le monde perd de l'argent
dans le business
je vais te donner un exemple
vite fait sur les GPU
aujourd'hui tu peux trouver en marché secondaire
des GPU qui coûtent normalement
sur Amazon 8$
8$ de l'heure
tu peux les trouver à entre 40 centimes et 1€
parce que les start-up elles ont entraîné leur modèle
ça coûte pas cher, elles ont pris des contrats
3 ans avec Amazon
ils ont entraîné leur modèle
après ils ont trop de GPU
et qu'est-ce qu'ils font ?
ils le revendent sur le marché secondaire pour essayer de pas trop perdre de l'argent
mais en fait ils perdent beaucoup de l'argent
c'est la sous-loc
tu t'es loué un palace pour faire une soirée
t'as fait ta teuf et après tu fais merveilleur
d'avoir que je continue à payer le palace pendant 2 ans et demi
et qu'est-ce que je fais ?
et là tu essaies de soulever morceaux par morceaux
des pivillettes de palace pour des gens qui font du coup
working
tu vois
et donc tu perds de l'argent tout le temps
donc tout le monde perd de l'argent dans ce métier
c'est très dur de faire de la marge
et ben très intéressant
on espère que ça te va
je vois ça qu'il t'a taf
oui bah nous on réfléchit ça
tu vois
mon mentor c'est Octave et Miro
donc
ouais Doverch
donc t'inquiète pas qu'Octave il m'a mis au fouet pendant des années
pour apprendre à comment calculer les marges
t'inquiète pas je me suis fait du kéofouet
par Octave
donc bien sûr qu'on a réfléchi ça de cette manière
mais parfois on va moins vite
parce que non on va chercher des solutions
on pourra s'assurer que ce qu'on fait
donc du coup tu vas moins vite, tu perds des parts de marché
mais du coup ta boîte elle est viable donc c'est toujours
l'équipe qu'il faut trouver
c'est très dur
salut si vous appréciez Ender's Core vous pouvez nous aider
de ouf en mettant 5 étoiles sur Apple Podcast
en mettant une idée d'invité que vous aimeriez qu'on reçoive
ça permet de faire remonter Ender's Core
telle une fusée
un truc qui m'intéresse c'est de savoir
donc là dire, vous avez j'imagine qu'il y avait un peu
un avant après OpenAI quand même sur Whisper
ah mais complètement
comment t'expliques justement
Whisper
comment ça nous l'expliquer la vraie raison
pour laquelle ils ont développé ce truc là
et qu'est ce qui fait qu'ils n'ont mis Open Source
qu'est ce qui fait que
il y a eu
des améliorations
depuis mais pas non plus
quand tu regardes
l'évolution des outils de transcription
j'ai l'impression qu'avant
c'était l'archéologie
enfin c'était non le paleoéthique
après il y a Whisper qui arrive
et depuis s'il y a des trucs qui s'améliorent
en termes de vitesse d'inférence
mais en termes de qualité
j'ai pas l'impression mais tu vas pour nous le dire
que ça a eu de gros changements
je plaisante
ouais
t'as tout à fait raison
en fait il y a un truc c'est que la donnée
à noter
les annotations donc
la bling en anglais
la donnée à noter
elle est pas ultra présente à part l'anglais
en fait c'est essentiellement du contenu anglais
après tu vas avoir les langues
tu vas avoir du français, de l'espagnol, de l'italien
mais en fait tes langues ou faire à mesure
t'as de moins en moins de ressources
donc le problème de la reconnaissance vocale
c'est pas vraiment le modèle
parce que les modèles anglais par exemple sont très très bons
tout le monde est très bon en anglais
fait quasiment aucune faute
le problème c'est d'avoir de la donnée pour les autres langues
c'est vraiment ça le sujet
et la notation de données audio
écoute est extrêmement chère
si je te prends
un gros texte
et que je te demande d'anoté toutes les heures
ce qu'on appelle du name intitial reconnaissant
de la reconnaissance d'antitée nommée
on va dire bah tiens faut que tu me prennes tous les chiffres
ou toutes les capitales
bon tu lis le texte tu fais capital capital capital
ok c'est bon j'ai fait une anotation
d'antitée nommée
quand tu fais de l'audio
pour faire la notation il faut que tu tapes une heure d'audio
et que tu tapes littéralement
à la main une heure d'audio
ça te coûte une fortune
de 1, de 2 c'est pas multilingue
parce que tu parles pas la langue
donc en fait des italiens qui sont prêts
à te faire ça
à 3 balles de l'heure
et 3 balles c'est bien payé
donc l'anglais t'as plein d'indiens qui sont pas chers
et tu peux faire mécaniculteurs et tout
mais des indiens qui parlent italien
qui sont pas chers y'en a pas
les espagnols t'en a quasiment pas
et donc en fait t'as un problème qui est assez drôle
je digresse un tout petit peu
donc t'as le problème de la disponibilité de l'ON
et là tu vas te marrer
problème géopolitique
euh... enfin problème ou pas problème
peu importe je laisse les gens juger j'ai pas d'avis
les pays qui ont des ex colonies
sont beaucoup plus avantagés
par exemple les pays bas
sont plus puissants en IA
que l'Italie
parce que les pays bas ont eu des grosses colonies dans le passé
donc ils ont beaucoup de gens qui parlent
le hollandaire en volume
dans des pays à très faibles salaires
pour la notation
pour du call center
donc c'est un truc de fou
donc l'Italie pas tant que ça en fait
mais les spain pas mal, le portugal beaucoup
tu peux corréler le pourcentage d'erreurs
des modèles de transcription
avec les empires
mais aussi la popularité de la langue
mais qui est tout à fait liée aux empires aussi
donc c'est assez drôle de voir ça
et c'est ça qui limite principalement aujourd'hui
la qualité des transcriptions
donc en fait on a... il y a eu
plutôt des blocages techniques
sur la manière d'entraîner etc
et maintenant que ça ça a été levé aujourd'hui
ce qui bloque c'est la donnée quoi
ouais parce que les anciens systèmes
c'est des systèmes qui faisaient du rapprochement phonétique
c'est à dire qu'ils entendaient un son
ils combinaient les sons, ils regardaient en indictionnaire
ils faisaient une recherche verticale
dans Excel et aussi je combine ça à ça
c'est quoi le mot le plus probable donc parfois tu avais des trucs
complètement débiles tu disais
ils portent enfin... tu parlais
de porter quelqu'un
lui il pensait que c'était la porte à ouvrir
en fait il pensait pas en fait il fait juste le rapprochement
donc parfois tu avais des... ça c'est un mauvais exemple
et tu avais des orthographes qui faisaient aucun sens
donc tu avais des systèmes où il y avait par exemple
beaucoup de vocabulaire médical
et puis le système il était parti
il t'écrivait que des mots médicaux
avec l'orthographe médical
donc ça n'avait aucun sens
maintenant avec un whisper
donc vous avez compris que c'est comme un LLM
whisper faut vous dire, vous connaissez GPT2
l'ancette de GPT3
et le décodeur donc la montagne qui descend
c'est GPT2
tout simplement
c'est le décodeur de whisper, c'est GPT2
donc tu peux très bien substituer la main, fi3
par exemple qui est un très bon modèle
qui a un très petit nombre de paramètres
qui va être rapide, tu vois, on pourrait très bien substituer
c'est les choses sur lesquelles on réfléchit
mais en tout cas pour dire que
tu as une montée de la montagne et t'as une descente
et en haut de la montagne c'est le cerveau
donc même s'il n'y a pas de LLM
à réfléchir et de choses comme ça
t'as une cohérence de la phrase
parce qu'il a appris la cohérence en regardant tout ce qui s'est passé en passé
ce que les autres systèmes n'avaient pas
c'est pour ça que t'as eu un changement
donc ça a impacté énormément
la qualité de la transcription
au global
le fait d'avoir un mini-cerveau, une mini-réfection
comprendre le contexte
voilà
et donc aujourd'hui il n'y a rien qui
il n'y a pas de raison que de manière immédiate
enfin dans un moyen terme
on est beaucoup mieux qu'un whisper
si
parce que t'as ton mini-cerveau
on peut en parler
t'as ton décodeur qui va avoir ton espace
avec de réflexion de certaine manière
si tu substitues avec un LLM3
à 7 miniards
tu auras mieux
si tu substitues avec un Fi3
tu vas corriger peut-être des erreurs
de compréhension de cohérence
mais pas
de compréhension de l'audio
en tant que tel
il va éviter
comme il a eu plus de mots
il va
parfois
parce que parfois whisper ça peut lui arriver
de donner des mots qui n'existent pas
il va combiner les petits
les phonèmes
il dit bon là je le connais pas
il n'y a rien qui est cohérent je te les colle ensemble
puis démerre toi donc les noms de rues les machins
le fait qu'il en voit beaucoup et qu'il en ait vu plus
comme par exemple la MA, Fi etc
va faire qu'il va être plus robuste
donc t'as définitivement
une amélioration que tu peux aller chercher
il y a un autre truc aussi qu'il faut que tu te dise
ça c'est une question de perception encore
un LLM
je fais un résumé de quelque chose avec
un LLM GPT 3.5
4 ou Claude
il n'y a rien qui ressemble
plus à un résumé qu'un résumé
d'accord que j'utilise le mot ta gada de soin soin
ou tigidi talala
au milieu de la truc il va faire aucune différence
une transcription c'est pas pareil
t'oublie une virgule tu te fais défoncer
t'oublie une majuscle tu te fais défoncer
donc la perception
des gens c'est que
ils voient les erreurs donc ils se disent c'est pas
fiable il manque ci il manque ça
et en fait tu seras jamais à 100%
mais donc les gens voient toujours le
verre à moitié vide que le verre
à moitié plein alors que sur les LLM c'est tellement fantastique
que les gens voient le verre à moitié plein alors que le truc
peut être con comme un balai
donc il y a cette question de perception aussi de produit
du zache c'est à dire que si tu as une transcription
tu l'utilises comme je disais pour
comme une étape intermédiaire donc par exemple tu as des transcriptions
de coach center et toi à la fin
tu veux en faire des résumés
tu t'en fous complètement que
l'orthographe du nom il soit pas bon
mais si c'est là que c'est intéressant comme paradigme
ce qui est en train de se passer dans le marché
c'est que les gens commencent à automatiser
cet âge là mais là
tu peux plus écorcher les noms
tu peux plus jouer avec ça
puisque c'est garbage in garbage out on appelle ça en anglaise
donc c'est caca à l'entrée caca à la sortie
d'accord et si je dis
salut c'est mi-code
j'appelle pour la facture et tu dis
bonjour ma code
toi tu vas te marier au téléphone tu fais mais quel y a pourris
machin on les entend
nos clients ils viennent chez nous ils ont d'autres fournisseurs
de ce nouveau verre
ils nous amènent les audios
il y a leur registrement complet
donc t'as la plan et le robot
et t'entends le mec se marier et fait
what a shitty system
what the fuck is that
you can't even say my name
i'm sorry i didn't get your name
can you repeat please
you're a mother fucker
you're just so bad
i'm sorry i didn't get
le fait que tu comprennes mal
elle va détériorer toute ton expérience client
donc en fait les gens veulent la perfection
même si tu dis c'est caché
machin en fait non ils ont besoin de la perfection
à cause de l'automatisation
et on espère que peut-être on l'aura
peut-être chez gladia
on croise les doigts
on croise les gpu
on aimerait te garder
on aimerait te garder des heures mais malheureusement
non mais je parle trop
c'est super intéressant
c'est des trucs dont on suit les nouveautés
mais on ne prend pas toujours le temps de s'arrêter de surmod
ok on va essayer de comprendre
la vidéo de cette techno
donc on est bien content de t'avoir pour parler ça
et encore bravo pour ta dernière levetsefond
merci
si vous avez besoin d'une appellée allez voir gladia
tout est dans mon content banque
parce que les gens me félicitent comme si mon content banque
c'était rempli mais non pas du tout
vous t'êtes une extrêmement riche
mais non
tu t'es plutôt
donné les moyens
de devenir
un ami hier
oui ça veut dire que tu dis 8 à boîte
tout le monde te fait
mais tu viens de vendre une partie de ta maison
tu te dis bravo
il me manque la moitié de la maison