Que manque-t-il aux IA pour enfin créer Jarvis ?

Durée: 32m31s

Date de sortie: 26/01/2024

Avec l’avancée des IA et de leur modèle associé, les LLM, nous n’avons jamais été aussi proche de créer un véritable Jarvis, comme dans Iron Man. Et pourtant, il y a un hic : les interface graphiques. Très pratique pour nous autres, humains, elles deviennent un sacré défi quand il s’agit de communiquer avec une IA !

Pensez à mettre 5 étoiles pour soutenir l’émission !

Écriture : Micode

Hébergé par Acast. Visitez acast.com/privacy pour plus d'informations.

Juste avant le podcast, j'ai un message pour vous. Si vous avez un pied dans l'informatique, vous aurez remarqué que la majorité des ressources se sont en anglais.
Et quand on parle mal ou peu anglais, ça peut vite être un gros frein.
Eh ben, Babel, le sponsor du jour devrait fortement vous intéresser. Si les cours d'anglais ont été votre hantise, c'est fait pour vous.
En 10 minutes par jour, vous avez des leçons interactives, conçus par des experts en apprentissage de langue.
Ce sont des exercices ludiques, axés sur la pratique et des situations de la vie réelles.
Il y a de la reconnaissance vocale pour s'entraîner à parler. Bref, je vous encourage vraiment à aller au moins regarder si vous voulez progresser en anglais.
Ils ont des offres de 3 ou 6 mois et même à vie.
Le lien c'est babel.com.micobebbel.com.miceo.de.
Bonne épisode !
Je vous l'avais promis, c'est ma chronique.
Voilà, en fait, on a arrêté de le spécifier.
Mais les gens, à grand-chose de YouTube, voilà.
Dans le planning, en fait, j'ai mis à chaque émission ma chronique.
Si vraiment, un jour, il n'y a plus rien à dire, je m'arrêterais.
Mais ce jour-là, je n'ai pas arrivé.
Je ne sais pas vous, mais moi, il y a un truc qui me frustre un peu, malgré toute la hype autour de LIA.
C'est que je m'attendais à ce qu'on ait un Jarvis Pluto.
Je ne sais pas ce que vous en pensez, mais dans Iron Man,
juste le mirage d'avoir cet assistant qui sait tout, qui est là constamment avec toi
et qui fait que tu passes 10 fois moins de temps à faire des trucs chiants dans ta vie,
je pensais qu'il allait arriver plus vite.
On est quand même dans la voie.
Oui, mais là, on est un an et demi après GPT4, à peu près.
Je pensais qu'il y a un an ou il y a 6 mois,
là maintenant, on aurait un assistant de ce niveau-là qui aurait remplacé soit nos smartphones
ou au moins nous accompagnerait à peu près tout le temps dans notre vie
pour toutes les tâches, un peu un grâte, réserver des trucs à droite à gauche,
gérer nos conversations, nous faire des plannings, gérer le calendrier.
J'en sais rien, mais qu'on est tous l'équivalent d'un assistant constamment, pour d'où quoi.
Or, ça n'est pas arrivé.
Ça n'est pas arrivé actuellement.
On en est même encore relativement loin, même si quand même ça se rapproche un peu.
Aujourd'hui, j'ai envie de vous parler de qu'est-ce qui manque pour qu'on ait un Jarvis.
Et la première chose que je veux vous montrer, c'est une annonce très récente qui a été faite lors du CEVS
d'une entreprise qui s'appelle Rabit, qui a sorti un device, un appareil qui s'appelle le R1.
Je vous propose qu'on regarde le trailer.
C'est une toute petite boîte, orange comme ça.
Alors ils font les trucs à l'appel où on ne voit rien dès le début.
C'est une petite boîte toute mignonne, avec une sorte de petit lapin.
Pas de bouton, pas de... voilà, ce n'est pas un appareil complexe à utiliser visiblement.
On peut entre à percevoir des microphones ici,
une caméra qui peut se retourner dans les deux sens,
et une sorte de bouton qui semble être l'unique moyen d'interagir avec l'appareil.
Et pour cause, il semblerait que ce soit designé pour être le futur Jarvis.
C'est la plateforme qui annonce actuellement et qui espère petit à petit vouloir transformer
un assistant ultime qui pourra tout faire pour nous.
Je trouve justement qu'on va rentrer dans le détail et vous expliquer un peu
qu'est-ce qu'on va pouvoir faire avec ce truc là.
Mais je trouve qu'ils ont une approche très intéressante parce qu'elle est réaliste.
Ils ne promettent pas la lune.
A priori, on va pouvoir mettre la main sur ces appareils pour de vrai.
Ça ne va pas cracher dans un mois.
Et on va pouvoir vraiment faire des trucs avec dans peu de temps.
Encore une fois, ça n'est pas encore Jarvis.
Je vais vous expliquer.
Et en plus, ce n'est pas très cher, il me semble. C'est genre 300 dollars.
C'est vendu actuellement à 200 dollars.
Et la raison pour ça, c'est qu'en fait, il ne se passe pas grand chose dessus.
C'est principalement un micro, un haut-parleur pour répondre,
un petit écran pour envoyer un peu des signaux, faire des petites têtes avec le lapin probablement,
et la caméra pour interagir avec le réel, etc.
Donc sur l'appareil lui-même, il ne se passe pas grand chose.
Donc c'est principalement une interface vers les serveurs de rabite
qui vont faire tout le traitement un peu lourd et intéressant.
Avant de rentrer dans le vif du sujet,
non, je vais garder ça pour la fin, mais je vais garder ça pour la fin.
Attendez, attendez, parce que je me suis un peu remis les pinceaux.
S***.
Pour trouver les pinceaux.
Ok.
Ils ont commencé la conférence avec le même avis que moi,
à savoir actuellement, on a l'état de l'art, on va dire, pour des assistants avec de l'IA,
et plutôt pas ouf.
Si par exemple, actuellement, vous allez sur Chatchapet pour utiliser un plugin d'une compagnie aérienne,
eh ben, il va vous faire des suggestions pour votre prochain vol en Alaska,
mais il ne va pas pouvoir réellement faire la réservation pour vous.
Les chatbots, comme ça, en fait, ils sont super forts à comprendre les intentions,
mais pas du tout actuellement à déclencher des actions.
La première tentative qui a été faite il y a quelques mois pour régler ce problème-là,
c'est les agents.
On en avait un petit peu parlé.
Ça a été très hype, notamment dans la communauté open source.
Et en gros, le principe, c'est de faire parler entre elles des personnales virtuels.
C'est un peu un hack d'une certaine manière pour utiliser les capacités conversationnelles des agents
sans avoir nous-mêmes à faire la discussion au haut.
Faire l'intermédiaire. Exacto.
On les laisse parler entre eux.
Ça fait des démos assez marrantes, par exemple.
Celle-ci que j'ai vue sur Twitter est intéressante.
Ça utilise un projet très cool qui s'appelle Crew AI,
qui est un des plus sérieux dans ce domaine.
Et la personne que vous allez voir a créé une sorte d'équipe virtuelle
qui est chargée de générer des posts Instagram pour une startup qui s'appelle Curio.
J'ai découvert ça.
C'est une boîte qui fait des jouets avec dedans un...
C'est un agent qui travaille avec une journée.
Exacto. Donc là, il présente son système.
L'objectif de son équipe, c'est de générer des posts Instagram pour une startup qui existe vraiment
et qui s'appelle Curio. Je vais vous montrer le site.
Cette boîte fait des jouets pour les enfants avec un LLM à l'intérieur.
Donc en gros, c'est une peluche.
C'est la peluche du futur, finalement.
Au lieu de répéter en boucle un truc qui te pète le crâne,
t'as juste un vrai LLM à l'intérieur.
C'était sûr que ça l'a...
C'était sûr.
C'était évident que ça allait arriver.
Et ils ont un prissement intéressant qui est vraiment en mode santé mentale,
enlever les écrans de vos enfants et donner leur des jouets qui ne sont pas chiant
mais qui ne sont pas non plus des écrans.
Il y a un truc intéressant.
Ok.
Et en plus, c'est mignon.
Par contre, c'est super mignon.
La com est très bien bossée.
Juste en comprenant le...
Juste avec le nom de la boîte, ils sont capables de son équipe d'agents
avec des outils de scrapping, des outils de recherche Google, etc.
Ils vont faire des recherches sur cette boîte-là, sur ces compétiteurs, tout seul.
Ils n'ont pas été instruits pour faire ça.
Ils vont scraper leur site web, réfléchir à une strade de com en fonction
et rédiger des promptes pour midjournée, pour faire des postes Instagram
et générer les descriptions des postes en question.
Si vous voulez voir, à la fin...
Salut ! Si vous appréciez Endorscore, vous pouvez nous aider de ouf !
En mettant 5 étoiles sur Apple Podcast, en mettant une idée d'invité que vous aimeriez qu'on reçoive,
ça permet de faire remonter Endorscore.
Voilà. Telle une fusée.
Les images, du coup, générées, elles ressemblent à ça.
Ok.
Et la description qui donne, c'est « Libérez la créativité de votre enfant avec Gabo,
dit adieu aux écrans et faites place au jeu dans le monde réel.
Hashtag je sais pas quoi, je sais pas quoi. Et vous aussi les images.
C'est pas mal !
C'est à dire qu'en gros, il a bien compris le positionnement un peu anti-écran de la start-up
et voilà, les 8 assistants, donc tu sais, il y avait un project manager,
enfin, il s'est vraiment parti partent dans des déliats un peu dingues,
mais globalement ça marche, tu vois, ils font leur discussion entre eux,
ils ont réussi à produire un résultat tout seul qui correspond à la tâche qu'on aura donné.
Mais ce serait mentir que de dire que c'est une révolution.
Genre, comme souvent, voilà, la démo est marrante,
mais en fait, tu passes aussi beaucoup, beaucoup de temps à débuguer ton système.
Et pour un truc pas révolutionnaire comme ça, en fait c'est super long.
Ça va être très longtemps, ça gérère des milliers de tokens pour arriver à ce résultat.
Ah oui, c'est un coup.
Bah voilà, c'est non négligeable.
Alors sauf que là, il tournait en local, donc en fait ça te coûte que ton électricité.
Mais la preuve que les agents, bah c'est pas encore au point,
c'est que depuis 6 mois qu'ils existent,
personne n'a montré vraiment de démo convaincante de fou.
Toutes les boîtes ne sont pas comme des folles à implémenter ça partout.
C'était un peu la folie quand ça a été annoncé,
comme d'hab, on attend de voir.
Et surtout, en fait, les agents sont limités par un très gros problème.
Les LLM ne savent pas appuyer sur des boutons.
Je rigole même pas, je vous ai très sérieux.
En fait, quand on se renseigne, c'est un des plus gros problèmes actuels
qui empêche qu'on ait un jarvis.
Et c'est loin d'être une question simple à régler en réalité.
Je m'explique.
Si on a envie que ChatGPT commande donc un billet d'avion.
En fait, tel quel, il peut pas le faire comme nous.
Il est fait pour comprendre et générer du texte,
donc pas pour lire des screenshots et bouger une souris.
Et pour cette raison, les agents et les plugins pour ChatGPT
qui veulent interagir avec des outils extérieurs,
ils doivent passer par des API.
Ce sont donc des interfaces officielles prévues par les développeurs de services web
pour les programmes informatiques.
Donc, par exemple, pour les humains, il y a TwitterWeb
avec des boutons et des menus.
Et pour les programmes, il y a l'API Twitter
qui utilise des données textuelles structurées.
Et donc prévisibles par un programme et un LLM.
Derrière, c'est évidemment une même serveur,
ça a la même base de données, mais l'interface pour y accéder, c'est pas la même.
Même chose sur l'ordi, en fait, on peut activer l'option du dark mode
en cliquant dans les paramètres de la machine.
Mais pour qu'un LLM le fasse,
lui il va devoir générer la ligne de commande
qui permet de faire l'action.
C'est toujours pareil.
Et si vous découvrez le concept des API comme ça,
vous êtes sûrement très excité parce que vous vous dites,
attends mais ça veut dire que quasiment tout a une API.
Donc on peut en fait écrire du code qui interagit avec n'importe quoi.
Donc 4GPT plus API égal JARVIS en fait.
Parf ! C'est de la magie.
Sauf qu'en fait, je ferai d'avoir finalement la documentation de toutes les APIs de la Terre.
Exactement.
Et c'est bon ?
En fait.
Sauf qu'en fait, la réalité est beaucoup, beaucoup moins rose.
Pour trois raisons principales.
Déjà, depuis que tout le monde a compris que pour faire des LLM,
il suffit de piquer le contenu des plateformes concurrentes,
beaucoup de sites comme Reddit ou Twitter ferment leurs APIs.
Ou alors ils les rendent extrêmement cher.
Oui, c'est pour ça.
En gros, la valeur maintenant est dans la donnée
et donc tu la protèges en enlevant ton API.
Tu mets des captchats partout.
Bref, tu empêches les robots d'accéder à ton contenu.
Deuxièmement, énormément de services n'ont juste pas d'API en fait.
Genre les sites de l'État, les messageries instantanées,
les sites où il faut faire des paiements en général, etc.
Bref, exactement ce qu'on voudrait déléguer un assistant en fait.
Ah oui, on peut pas faire acheter,
enfin, mettre dans le panier ou payer le panier.
Mais les codes de la carte ?
En API quoi.
Ça dépend des services.
Les sites qui n'ont pas d'API,
et les sites dont tu veux te débarrasser et les filer un assistant,
c'est souvent les mêmes.
Et enfin, quand bien même, ce serait le cas,
pour que votre Jarvis marche,
il faudrait commencer par créer un compte développeur
sur l'ensemble des sites qu'il pourra utiliser,
demander une clé d'API, mettre votre carte bancaire.
Donc pour le truc OneShot,
genre le site des impôts par exemple,
tu vois, tu voudrais bien t'en passer,
mais en fait, tu vas juste perdre du temps à 7h pour qu'il lui parle.
Exactement, tu vois.
Oui donc oui, c'est plus court de le faire.
En fait, vous l'avez compris,
en attendant l'interface universelle
qui n'arrivera, bon, nettement, jamais en fait,
il n'y a pas de meilleure solution
que d'apprendre au LLM à utiliser des interfaces d'humains.
Il n'y a pas le choix, il n'y a vraiment pas le choix.
Tellement paradoxal.
Mais oui, c'est absurde.
On a un système informatique,
les API, c'est super bien inglé,
tous les développeurs utilisent ça,
mais les LLM ne peuvent pas.
C'est absurde, mais c'est comme ça.
Alors, comment faire ?
La première tentative, c'était de donner par exemple
le code source de la page web
au LLM et de lui demander le nom du bouton
sur lequel il voulait cliquer.
Après, on injecte le clic
pour spoiler, ça marche pas super bien.
La deuxième tentative est déjà plus intéressante.
L'idée, c'est d'utiliser les nouvelles capacités
de vision des modèles.
On fait des modèles qui sont maintenant hybrides, multimodos.
Et donc, on se dit,
ils peuvent un peu plus comprendre les interfaces qu'avant déjà.
A priori.
Je vous montre une démonstration
du modèle qui fait...
Je vous montre une démonstration d'un projet
qui fait ça le mieux actuellement.
Vous allez voir, c'est quand même assez impressionnant.
Ça s'appelle Self Operating Computer.
Actuellement, c'est une petite interface graphique comme ça
avec laquelle on discute.
Alors, on lui demande,
est-ce que tu peux faire un truc dans Google Doc ?
Donc, tu ouvres Google Doc et écris un poème
à propos de l'open source.
Là, le modèle, ce qu'il est en train de faire
en tâche de fond, c'est de prendre des captures d'écrans répétés,
d'injectés, de réfléchir à quelle action il va faire.
Donc là, par exemple, il a cliqué sur le bouton Chrome.
Il a détecté qu'il y avait un input en haut.
Il a déplacé la souris.
Il a input du texte dedans.
Là, nouveau screenshot.
Moi, ce que je dois cliquer, ok.
Il a vu le blank document, il clique dessus.
Il comprend qu'il a une interface d'écriture.
Il clique, il écrit le texte qu'il a généré lui-même.
Ok.
Ah, voilà.
Franchement, c'est très stylé.
Il faut comprendre que les souris, c'était pas un humain qui...
On ne voit pas sur les crans, mais en gros, c'était automatique.
Ça a été fait automatiquement, sans toucher au clavier à la souris,
l'humain était spectateur.
La seule instruction, c'était ouvre Google Doc et rédige un poème dedans.
Et derrière, ça utilise GPT Vision ou des choses comme ça ?
Justement, comment ça marche ?
Si vous avez déjà essayé de faire ça vous-même...
C'est super compliqué, déjà.
Exactement. Quand toi, tu veux faire du auto-outkeep, par exemple,
ou des macros...
Voilà, tout le monde qui a déjà essayé de faire ça,
c'est que c'est pénible, mais vraiment très pénible.
Donc, voir ça, ça fait bavé.
Alors, comment est-ce que ça marche ?
Effectivement, derrière, ça utilise un modèle multimodal,
le plus performant qui existe actuellement,
à savoir GPT4 Vision.
Je ne vais pas rentrer dans le détail,
mais c'est quand même plus compliqué que prendre une capture d'écran
et lui demander une position X, Y, sur laquelle il faut cliquer avec la souris,
telle quelle, ça ne marche pas.
Ces gens ont été obligés de développer des patches,
comme très souvent avec les modèles de langage,
tout comme on fait des chaines of thought
et on demande 10 fois de revenir sur son premier état.
Là, c'est un peu la même chose.
Ils ont dû inventer des systèmes en plusieurs étapes,
où ils vont donner une première capture d'écran,
en demandant qu'est-ce qui se passe à l'écran,
quelle est la zone qui est probablement la plus intéressante,
est-ce que c'est en haut à gauche, en haut à droite.
Après, ils vont découper l'image, lui refournir et lui redemander
sur quelle zone est-ce que le bouton se situe, etc.
Une sorte de dichotomie,
alors en réalité, c'est un peu plus intelligent que ça,
mais une sorte de dichotomie de l'image
pour arriver à la fin péniblement,
à savoir à quel endroit la souris doit se positionner,
pour cliquer sur le bouton
ou renseigner un champ de texte.
Un peu l'aburrier.
En gros, c'est l'aburrier.
Mais la raison principale pour ça, c'est quoi ?
C'est que, que ce soit avec du code source
ou que ce soit avec des captures d'écran,
on est en train de prendre des modèles de langage
pour leur apprendre des interfaces.
On est en train de prendre des modèles de multimodos
pour comprendre des images, donc plutôt des photos en général.
Et là, on les utilise pour faire des actions.
En gros, on travestit un peu ce pourquoi
ont été faits certains modèles.
Et donc, face à cela,
il y a pas mal de gens qui proposent des idées alternatives,
notamment le Rabbit R1,
tout sur lequel je vais revenir juste après.
Un truc assez intéressant qui est sorti récemment, par exemple,
c'est un dataset de l'entreprise Huggingface
qui a généré, je ne sais plus combien exactement,
je vais vérifier, des centaines de milliers de captures d'écran,
d'interface et du code qui leur est associé.
Ce qui est intéressant, c'est que ces données,
elles sont synthétiques.
C'est-à-dire qu'ils ont demandé à des modèles de langage
d'écrire du code,
après ils ont fait une capture d'écran de ce que donner ce code,
ce qui leur a permis de générer des données synthétiques
en immense quantité.
D'ailleurs, on pense que c'est peut-être l'avenir,
les données synthétiques, pour générer des quantités données
dont l'humanité ne dispose pas.
J'ai à moitié compris le concept de données synthétiques.
En gros, Huggingface,
ils avaient envie de créer un dataset super grand
pour apprendre au modèle, c'est quoi, le lien entre du code
et une interface web.
Comment tu fais ça ?
Tu as besoin de trouver beaucoup de données,
beaucoup d'exemples de code
et de l'interface en PNG associée, tu vois,
où un vecteur peut peu importe le modèle, le format.
Comment tu trouves cette base de données ?
C'est pas si simple d'avoir un truc vraiment clean de qualité
qui marche bien.
Déjà, en fait, ce qu'il y a dans les vraies données,
c'est que souvent elles ne sont pas standardisées.
Du coup, c'est aussi compliqué de pouvoir,
dans les bases données, ce qui est compliqué aussi,
c'est d'arriver à donner du sens un peu à la donnée.
Puis les gens ont pas forcément codé pareil.
C'est ça, genre...
Ah oui, tout simplement, les gens ont pas codé pareil.
Un million de manière de faire la même maquette.
Exactement.
Et du coup, ce qui est de l'équipe Miguel,
c'est que la next step dans l'apprentissage des IA
c'est de pouvoir générer des données
qui ne sont pas de sites qui existent.
Ok.
C'est des fausses données qui sont générées par des IA
pour entraîner des IA.
Tu sors standardise la donnée
d'une manière que toi, tu as envie,
tu crées 200 000 exemples hyper qualitatives
d'un site web, par exemple, codés avec Tailwind
ou des trucs super précis, et le code associé.
Et pour ceux qui réalisent la valeur que ça a,
une base de données qualitative,
c'est une bague, et c'est vraiment fou.
Donc ça, c'est un premier truc intéressant
qui peut laisser présager qu'on ait des améliorations prochaines
sur la compréhension des interfaces
et le fait qu'on ne torde plus des modèles
faits pour écrire des poèmes
en modèle de compréhension d'interface.
Et donc, ça, c'est un premier truc intéressant.
Et la deuxième boîte que j'ai vue qui parle de ça précisément,
c'est donc Rabbit.
Dans leur conférence, ils expliquent notamment
qu'ils sont en train de travailler
sur ce qui n'appelle plus un LLM,
donc un large language model,
mais un LAM, large action model.
Et leur idée, c'est de dire
que les premiers modèles sont faits pour changer les nairs du texte,
les secondes seront faits pour agir.
Et donc, par définition, intégrés dans leur servo,
la notion d'interface de boîte
avec des boutons, des formulaires, des choses comme ça,
quand on y réfléchit,
si on met toute notre énergie juste à résoudre ça,
on pourrait faire mieux.
Le truc, c'est qu'ils ont annoncé ça
avec beaucoup de promesses.
Et franchement, si ça se produit, ça fait kiffer.
Par exemple, ils expliquent qu'on pourrait
apprendre des trucs à notre assistant.
Donc pour l'instant, c'est ce qu'on a dit,
Jervis n'est pas prêt.
Pour plein de raisons, l'interface,
enfin savoir s'interfacer avec des logiciels très complexes,
avoir une gestion de la mémoire aussi
qui soit très long terme, etc.
Pour plein de raisons, Jervis n'est pas prêt.
En fait, c'est un problème d'interface.
Exactement. C'est un des problèmes, moi dire.
Mais en gros, pour l'instant, c'est pas possible.
Et du coup, eux, ce qu'ils disent, c'est qu'en attendant,
ce qu'on va faire, c'est au moins
permettre d'apprendre très facilement
des suites d'action au modèle.
Et donc avec ce LAM, ce qu'ils ont tisé,
c'est un mode apprentissage.
Donc en gros, tu tirais sur ta page web
ou sur ton application, tu ferais ta série d'actions,
donc tu remplirais une fois tes impôts.
Et c'est tout.
Tu n'as plus jamais à le refaire de ta vie
parce que ton modèle aurait appris.
Tu prends par la main une fois, quoi.
Exactement. Il n'est pas un saint et gent
pour faire tout seul de A à Z.
Mais il est un saint et gent pour généraliser
ton action,
même s'il y a une pop-up de cookie
qui vient la prochaine fois,
il va réussir à la contourner
contrairement à ton script auto-adkiff et main.
Et surtout, ça va te prendre 10 minutes
de l'enregistrer, donc tu devrais avoir
un réel gantant.
Ça, c'est la promesse qu'ils font.
C'est ce qui intéresse le plus en réalité
parce que leur appareil est sympa.
Ils font du beau hardware.
Je crois qu'ils faisaient de l'audio avant.
Ils ont un partenariat avec Teenager Engineering,
qui font des trucs très luxueux.
Très joli, luxueux.
Et donc, ça plaît pour d'autres raisons,
notamment il y a le micro
et il est désactivé d'un point de vue hardware,
tant que tu n'as pas appuyé sur le bouton
push to talk.
Donc la caméra paraitre,
tu peux la cacher physiquement.
Donc ils ont vraiment une approche
relativement saine
de ce qu'ils souhaitent faire avec.
Il y a quand même des grosses questions
sur qu'est-ce qu'ils vont sur leur cloud,
qu'est-ce qu'il reste sur ta machine, etc.
Comme d'hab.
Mais bon.
Mais ce qui intéresse le plus en réalité
c'est vraiment ce mode apprentissage
parce que c'est là que tout se joue, en gros,
si on veut un jour obtenir un service.
Et pour terminer, un des trucs que je vais évidemment suivre
c'est un mec qui sur Twitter
s'est dit c'est cool votre truc,
mais franchement genre c'est pas si...
sur le papier c'est pas si compliqué
de refaire le même appareil
avec que des trucs open source
sur un Raspberry Pi par exemple.
Et donc c'est ce qu'il disait.
Tu combines un mixtral par exemple,
Linux,
un whisper pour faire la transcription.
Bon si vous ne connaissez pas tous ces mots,
dites-vous que c'est juste toutes les briques
de transcription de speech-to-text,
de texte-to-speech, de modèle local
qui permettraient d'avoir l'équivalent
sur un device que vous feriez vous-même
à la maison open source que vous pourriez modifier.
Donc c'est ça qui va être compliqué
pour une boîte comme Rabbitz.
C'est que la réponse va être très très rapide
de la communauté open source.
Typiquement moi je crois...
Même d'autres acteurs.
Oui d'autres acteurs.
Un Microsoft.
Je pense que leur chance de survie en fait
ce serait typiquement
si ils avaient une approche un peu comme la Pebble Watch
dont on avait parlé il y a un certain temps
et qui d'entrée de jeu
mis tout sur le hardware
et disent que faire de l'open source
sur l'open source on sait que ça n'existe pas.
C'est super compliqué.
Donc voilà.
Je crois qu'actuellement je ne suis même pas sûr
que t'aies un device qui soit entièrement
d'open source par exemple.
En chique.
Un device hardware.
Mais pas un device très connu quoi.
Oui voilà.
Pas un Nardi quoi.
Enfin voilà par exemple.
Bref.
Moi je leur donne des chances
si jamais d'entrée de jeu
ils disent nous on vous file le hardware
et vous pouvez l'interfacer
avec ce que vous voulez.
Donc par exemple
si vous pouvez avoir une station chez vous
genre un Mac mini
ou je ne sais pas moi une machine fait maison
qui sera votre hub
dessus vous utiliserez vos propres outils
open source potentiellement
juste l'appareil que vous aurez toujours sur vous
qui discutera avec votre maison
eh ben ce sera un Rhabit R1.
Ça j'y crois.
Mais la version uniquement cloud
super fermée je pense que
je ne sais pas si elle a un avenir radio.
Avoir.
Avoir.
Voilà.
Mais peut-être qu'il y a aussi une version
en interne en fait dans le...
les puissances de calcul vont changer etc.
Et qu'en fait il n'y aura pas besoin de contacter
un ordinateur ou un serveur
pour traiter la donnée ya.
Alors je sais que ce n'est pas tout de suite mais
il y a des choses qui se font et tout.
En fait ça sera soit intégré à nos téléphones
soit dans un... en vrai il est super stylé
mais c'est pour ça que j'ai imaginé ce...
soit standalone en gros.
C'est pour ça que j'ai imaginé...
Oui en théorie
mais je pense quand même qu'on va atteindre
un plafond sur la capacité
de certains modèles.
Typiquement le fait...
là le fait de...
Bah quoi que non mais t'as peut-être raison.
Actuellement pour avoir un assistant qui fonctionne
à peu près il faut au moins 7 milliards de paramètres.
Donc si jamais
l'appareil est un peu plus gros
que t'as une bonne
une bonne batterie un peu mastoque quand même
parce que ça consomme
dans ce cas-là ça peut marcher.
Mais je ne sais pas pourquoi je crois pas mal
à une sorte d'hybride où en fait ta grosse station
à ta maison c'est ta puissance de calcul
et
ton appareil sur toi il est fait pour la batterie
et les capteurs
et c'est tout et ils discutent avec ta maison.
Je sais pas pourquoi, j'ai crois pas mal aussi
mais on verra, on verra, on fait nos théories
et on verra ce qui se passera.
Après juste pour ajouter à ce que tu disais
du coup
par rapport à la difficulté de faire un service
parce que du coup effectivement soit il te faut toutes les API
soit... enfin voilà
c'est super compliqué à faire, je pense que effectivement pour le particuler
super dur à faire
par contre
moi j'ai exemple au taf de
doutique qu'on essaie de faire pour les entreprises
ou on essaie de faire
des assistants comme ça
un peu Jarvis-Lake mais qui sont très
orientés pro
et ça reste
quand même super cool, on en est au début
bien sûr, où tu peux connecter
comme genre une quarantaine
d'applications différentes avec lesquelles tu travailles
genre par exemple tes mails, ton Slack
une base de données, potentiellement ton entreprise
et tout ça et en fait
il y a quand même ces assistants-là qui existent aujourd'hui
qui peuvent compiler un peu toutes les données
de ton entreprise et tous les échanges que t'as eu
et toutes les archives, tu vois
qui a la connaissance globale de ton entreprise
et on tend
à faire des intelligences comme ça qui peuvent
au moins être des assistants dans le monde du pro
et je pense qu'on en est plus proche
dans le monde du pro que dans le mode du particulier
c'est pour ça aussi qu'on en parle pas tant que ça
enfin je veux dire en dehors
du monde dans l'entreprise
mais dans le monde des entreprises ça commence à arriver
à grand pas donc je pense que ce serait
tu penses ça a du sens parce que
tous les services que t'as mentionné ont
désapéé pour le coup
et si c'est ton entreprise qui centralise
la complexité d'aller se plugger partout
qui fait la tuyauterie en fait
et bien ça a plus de chance d'arriver
sans vouloir faire de pub
sans vouloir faire de pub
mais donc à Amazon on a Amazon Q
qui est du coup un nouveau service
où on essaie de tout connecter
donc en fait on te donne la possibilité
de connecter tout ça et en plus de ça
c'est connecter à ton cloud
du coup il y a ça...
Est-ce que t'as vu du coup un moment
une discussion, un échange
où t'as été
halluciné
de cette capacité là
à interconnecter beaucoup d'appellés
ou alors
est-ce qu'on est dans une situation où le problème
de l'appellée est réglé mais en fait
il y en a d'autres qui sont encore assez limitants
Le problème de la paix est réglé
à ce niveau là
après comme moi je travaillais pas
au sein d'une entreprise, enfin autre qu'Amazon
j'ai pas encore vu un exemple concret
de connexion
de plein de services différents
qui pourrait faire en sorte que du coup
t'as réellement un assistant
qui pourrait te dire plus ou moins n'importe quoi
sur les objectifs de l'entreprise
avec qui t'as parlé de ça, qui a eu l'idée
de faire ça ou...
j'ai pas encore vu cet exemple là
mais je sais que c'est la promesse
et que c'est l'objectif
donc je suis impatiente de voir des clients
en fait c'est parce que c'est
nos clients qui les utilisent
et qui vont arriver à faire ces exemples là
j'en ai pas encore vu
parce qu'il est possible que
aujourd'hui
j'ai mille focus sur l'interface
mais c'est probable
qu'il y ait potentiellement des prochains épisodes d'affaires
on en avait un peu parlé déjà Mathieu mais c'est probable qu'il y ait d'autres
volets qui soient non résolus
pour obtenir un service
typiquement
j'ai très rapidement mentionné la mémoire
mais
un assistant n'est intéressant et bon
que si il a
une large mémoire
et qui sait récupérer
comme nous on le fait avec notre cerveau
le bon contexte pour la bonne tâche
et il y a des tentatives là dessus
mais je sais que c'est un des vous autres
champs un peu non résolu
j'ai un élément de réponse à ça
en plus des agents
du coup on a une technique qui s'appelle les rags
Retrivologmentation
ou du coup
si on veut vraiment générer
cette capacité de mémoire
il faudrait stocker
dans une base d'une externe
tous les échanges que tu as eu
tous les précédentes
données si tu veux
au connaissance que Lya devrait avoir
pour pouvoir répondre à ta question
et donc ça c'est une partie de la réponse
je pense et donc les rags
plus les agents
plus les pays connectés avec tout ces
ça pourrait être le début de quelque chose
comme Jervis
les rags c'est de la génération
de récupérer
dans le contexte du chat
des données pertinentes et de l'intéressante
typiquement si vous utilisez perplexity
ou des genres de moteurs de recherche alternatives
c'est ce qu'il faut en réalité avec
de la donnée de qualité qui vient de l'internet
c'est un domaine vachement
de recherche du coup
et dont on n'est pas
encore complètement maître
c'est à dire que
parfois ça va super bien pour certaines choses
et parfois on se rend compte que la tâche
est beaucoup trop complexe et c'est pas
rajouter des trucs dans le contexte qui va fonctionner
et parfois on se rend même compte
on dérive un peu c'est pas grave ça ne sera pas dans la VOD
mais on se rend même compte que
un document qu'on va rajouter
dans le contexte
fout complètement la merde
et va
comme ce sont des modèles qui sont super
dépendants ou moindres tokens qui les précèdent
parfois tu vas pourrir ta réponse
parce que tu lui as donné des infos
qu'il fallait pas, il y a un truc avec le cerveau
en fait ce qui est fascinant c'est que plus on bosse
sur ça, plus on découvre ça
plus on réfléchit au cerveau humain en fait
parce qu'on réalise
que nous on a
pas du tout constamment tout ce qu'il y a dans notre cerveau
dans notre mémoire immédiate
on a une capacité, on a des chemins
et des connexions et une capacité à les sélectionner
pile la bonne info le bon
la bonne donnée, la bonne mémoire
pour la bonne tâche et j'ai l'impression que ça
n'a pas été encore débloqué
c'est des tâches qui sont super complexes
c'est pour ça qu'on fait comme dit disait
des China Thoughts avec vos agents qui peuvent
après eux essayer de retrouver la bonne information dans la donnée
mais c'est vrai que c'était...
en tout cas le jour on y arrive
vous serez les premières vertiques
et on vous fera d'autres chroniques dessus
...
juste avant le podcast j'ai un
message pour vous, si vous avez un pied dans
l'informatique vous aurez remarqué comme moi que
la majorité des ressources se sont en anglais
et quand on parle mal ou peu anglais
ça peut vite être un gros frein
et bah Babel le sponsor du jour devrait fortement
vous intéresser, si les cours d'anglais ont été
votre hantise c'est fait pour vous
en 10 minutes par jour vous avez des leçons
interactives conçus par des experts
en apprentissage de langue
ce sont des exercices ludiques axés sur la pratique
et des situations de la vie réelle
il y a de la reconnaissance vocale pour s'entraîner
à parler, bref je vous encourage vraiment
à aller au moins regarder si vous voulez progresser
en anglais, ils ont des offres de 3 ou 6 mois
et même à vie, le lien c'est
Babel.com
B-A-B-B-E-L.com
M-I-C-O-D-E
bon épisode

Episode suivant:

La face cachée des Gacha games

Les infos glanées

Je suis une fonctionnalité encore en dévelopement

Signaler une erreur

Underscore_

IA, Hacking, Robotique — Des conversations de terrain avec ceux qui construisent. 🥨

Partenariats: underscore@micorp.fr

---

Hébergé par Acast. Visitez acast.com/privacy pour plus d'informations.

Card title

Lien du podcast

[{'term': 'IA', 'label': None, 'scheme': 'http://www.itunes.com/'}, {'term': 'Investissement', 'label': None, 'scheme': 'http://www.itunes.com/'}, {'term': 'Nouvelles Technologies', 'label': None, 'scheme': 'http://www.itunes.com/'}, {'term': 'Tech', 'label': None, 'scheme': 'http://www.itunes.com/'}, {'term': 'Actu tech', 'label': None, 'scheme': 'http://www.itunes.com/'}, {'term': 'Cybersécurité', 'label': None, 'scheme': 'http://www.itunes.com/'}, {'term': 'Développement', 'label': None, 'scheme': 'http://www.itunes.com/'}, {'term': 'Dev', 'label': None, 'scheme': 'http://www.itunes.com/'}, {'term': 'Entreprenariat tech', 'label': None, 'scheme': 'http://www.itunes.com/'}, {'term': 'IT', 'label': None, 'scheme': 'http://www.itunes.com/'}, {'term': 'Robotique', 'label': None, 'scheme': 'http://www.itunes.com/'}, {'term': 'Technology', 'label': None, 'scheme': 'http://www.itunes.com/'}]

Go somewhere