
Développer des projets IA - introduction
Durée: 65m52s
Date de sortie: 15/01/2025
Dans ce premier épisode de la série IA et dev, nous allons évoquer les différentes possibilités, outils et lexique de l'IA pour les projets de développement IA. En effet, il est aujourd'hui indispensable de s'intéresser aux possibilités d'intégrer l'IA dans nos développements. La demande est croissante tant de la part des entreprises qui ne veulent pas rater le train que des utilisateurs qui commencent à avoir l'habitude de retrouver de l'IA dans tous leurs outils. Nous commencerons par le plus basique, simplement utiliser les API des plus grands modèles (OpenAI, Anthropic, etc.), nous passerons par Hugging Face, nous survolerons les RAG (un épisode entier y sera consacré) et nous évoquerons également les questions de déploiement et d'hébergement. Retrouvez toutes les notes et les liens de l'épisode sur cette page : https://double-slash.dev/podcasts/devia1-1/
Bonjour à tous, bienvenue dans ce nouvel épisode. Nous sommes en 2025 donc,
meilleurs vœux à tous les devs. Et comme d'habitude, nous sommes avec Alex. Salut Alex !
Salut Patrick, salut tout le monde et évidemment on vous souhaite une bonne année, tout ça,
tout plein de codes, tout plein de trucs, des bons projets digitales, digitaux mais aussi
IRL quoi. Dans la vraie vie c'est important aussi de faire autre chose à côté, trouver le bon équilibre.
Néanmoins, nous on va continuer en 2025 sur notre lancer sur les podcasts aussi bien sur
tous les réseaux, que ce soit Pure Audio, Spotify, Deezer, Google Podcast qui n'existe plus d'ailleurs
et qui a été remplacé par YouTube. Mais en tout cas, en audio, directement sur le site,
vous pouvez aussi nous retrouver et évidemment sur YouTube si vous voulez profiter de la vidéo.
Et donc un grand merci pour déjà toutes les personnes qui nous ont soutenus depuis toutes
les années et toutes les personnes qui nous soutiennent financièrement aussi et tous ceux
qui nous aident et qui nous donnent de la force avec du petit pouce, des petits commentaires et
qui partagent évidemment les liens et l'émission avec les collègues, les amis et tous les
développeurs pour gagner en fait en influence même si on n'a pas du tout pour but d'être des
influenceurs. On est bien d'accord Patrick ? Non du tout, surtout pas. Surtout pas.
Surtout pas. Surtout pas. Surtout pas. Surtout de développeurs. Exactement. Exactement.
Ouais, nouveauté, alors comme ça je me mets un peu la pression tu vois. Nouveauté, comment mettre en place
d'ici ? Allez je me mets une deadline fin de semaine. Donc normalement au moment où vous allez
découvrir le podcast, ça sera peut-être sur le site, on va mettre un champ pour s'inscrire à
une newsletter en fait. Donc vous mettez votre email. Le but c'est pas de faire une newsletter quand
vous envoyez toutes les semaines ou autre comme ça. Le but c'est à chaque épisode en fait c'est de
vous prévenir que l'épisode est sorti avec les liens et les notes de quoi on parle dans l'épisode
etc. Donc c'est vraiment pour vous prévenir, vous êtes au courant dans les premiers pour que
l'épisode est sorti, vous pouvez de suite l'écouter. Vous n'avez pas besoin d'aller sur YouTube. Et vous
récupérez l'intégralité des notes de l'épisode avec tous les liens. En fait si on aborde un sujet,
on met souvent le lien et là vous récupérez directement le lien accessible dans votre email
que vous pouvez archiver, structurer pour structurer votre veille. C'est un outil encore plus.
De quoi on va parler aujourd'hui Patrick ?
Eh ben en fait, il faut savoir qu'Alex il a plein d'idées pour faire des épisodes.
Si j'écoutais on en ferait un tous les deux jours. Mais sur l'IA il m'en a parlé il y a un petit moment.
Moi je n'étais pas prêt encore, je ne me suis pas mis profondément dedans. Là c'est bon,
je me connais un peu plus. Donc je suis prêt. Donc ce sera le premier épisode certainement d'une,
on va dire d'une série puisqu'on va certainement faire plusieurs tout le monde de l'année. On ne se
donne pas de régularité particulière mais on en fera assez régulièrement où on va parler d'IA
tout simplement parce que c'est obligatoire. On est dev.
Je pense qu'aujourd'hui en 2025 on est obligé de traiter de l'IA. Après l'idée de cette série
c'est vraiment de jumeler le travail de dev avec cette nouvelle donnée qui est arrivée sur le marché
qu'aujourd'hui on ne peut plus nier qu'elle est là. Elle est là, ça s'inscrit dans la durée.
Elle fait partie intégrante aujourd'hui de notre travail. Néanmoins on a considéré que c'était
intéressant de aujourd'hui, ça sera le premier épisode de la série. Et donc ça nous paraît
intéressant de poser vraiment les fondations de savoir de quoi on parle. Quand on parle d'IA
et donc on va faire de la pédagogie, on va dire de vocabulaire, de bien comprendre comment ça marche
et comment nous en fait en tant que développeur on peut tirer profit de tout ce nouveau champ qui
s'offre à nous. Mais pour l'instant en tout cas on ne va pas aborder le sujet vraiment deep tech
comment marche un modèle, comment on construit un modèle tout ça. On va vraiment être plus
en tout cas aujourd'hui sur l'utilisation, sur bien comprendre les mots, le vocabulaire pour que
on puisse nous en tant que développeur quand on crée des applications, qu'on puisse en fait
utiliser ces modèles là et juste de savoir de quoi on parle en fait tout simplement.
Ouais mais ici voilà on va faire un, on va parler pour les devs, pas de bullshit, on va pas faire du prompt
engineering, il y en a assez déjà sur youtube des vidéos bullshit donc nous on va faire un vrai
truc sur voilà pour les devs, qu'est ce qu'on peut faire avec l'IA en tant que devs voilà.
Yes. Allez on attaque gros programmes évidemment qui est le début d'une série qui sera sans
doute beaucoup plus longue et on pourrait comme ça dérouler. Par quoi on attaque sur quoi
on va commencer en fait ? Le plus simple c'est comment quand on veut développer un truc un peu
basé sur l'IA où on va utiliser un modèle, le plus simple c'est quoi en gros c'est utiliser les
API payantes en fait au Penaï, Anthropique etc. Google on pensait que c'était plein,
Mistral etc. Donc ça c'est la partie facile c'est-à-dire il n'y a pas besoin de connaissances
particulières en fait pour brancher quoi que ce soit la plupart là donc là on parle de modèles
fermés et au Penaï tout ça c'est vraiment des modèles fermés où on a accès à un API
tout simplement donc il y a une doc etc. L'avantage c'est que déjà il s'est disposé
dans plusieurs langages même dans PHP, il y a des livrais disponibles dans PHP où ça te permet
de te connecter avec OpenAI et tu mets ton token, machin de connexion et puis tu arrives déjà à
faire de l'inférence, envoyer des prompts et il va te répondre etc. Donc ça te permet quand même
de pouvoir proposer au niveau de tes développements ne serait-ce que imagine t'as une admine tu veux
faire un résumé ou des choses comme ça ou traduire automatiquement du texte enfin voilà
il y a plein de choses possibles en fait déjà avec ces API. Après on a utilisé le mot
inférence et c'est vrai que ça c'est déjà quelque chose qui est spécifique vraiment au
coeur de l'IA. Ce qu'il faut comprendre c'est qu'un modèle en fait c'est des énormes bases de
données qui ont été intégrées on a mis plein plein plein plein de modèles plein pardon plein
d'informations pour entraîner un modèle à une tâche spécifique et donc ce modèle il a été
entraîné donc ça c'est la première on va dire c'est la première partie vraiment pure pure
entraînement où on lui a donné des informations ce modèle là a été entraîné à exécuter une
tâche donc ce qu'on connaît le plus qu'on a entendu parler c'est chat gpt c'est ce qu'on
considère dans les modèles de LLM large language modèle en clair c'est un modèle qui est capable
de générer des phrases donc en clair c'est comme si il savait parler on lui a donné à manger plein
plein plein d'informations des règles de grammaire du texte et plein de choses et lui il est capable
d'exécuter et d'écrire du texte par contre c'est vraiment ce qu'il faut bien bien bien bien
comprendre c'est qu'il y a deux phases il y a la phase d'entraînement et il y a la phase d'utilisation
et en fait l'utilisation d'un langage d'un modèle de large language modèle ou l'utilisation
d'un modèle général c'est ce qu'on appelle l'inférence c'est je viens utiliser un modèle c'est
utiliser souvent l'inférence et donc c'est l'utilisation d'un modèle donc nous en tant que
développeurs on va pouvoir facilement utiliser ces modèles là et en fait faire appel à cette
inférence là faire de faire de l'inférence pour utiliser ces modèles et comme tu dis la solution
la plus simple c'est de se brancher directement vers les gros acteurs qu'on connaît tous au
pénia on a aussi anthropique qui est un peu qui est aussi solide et avec oui avec tous ces
modèles Claude Claude Sonnet et donc on connaît tous les évolutions des des modèles et on va
voir aussi ce de méta avec donc qui sont les lama lama 3 voilà et chez google c'est quoi c'est
jema je crois jema il y avait jémini aussi je crois après ils ont changé donc les mecs
ils changent le temps non il s'enbrouille pas mais en tout cas c'est plus il change le nom quoi
il y a deux il y a une chose que t'as dit c'est important c'est là on parle d'lm donc on
parle vraiment de dia generative en fait aujourd'hui on parle beaucoup d'ia mais c'est lia generative
qui voilà avec tout ce qui est chate gp té compagnie qui a vraiment mis ça en lumière lia
existe depuis longtemps et on va dire maintenant on appelle ça plutôt lia classique ce qui
existe déjà avant qui est voilà il ya beaucoup de boîtes qu'ils utilisent déjà lia et aujourd'hui
on parle beaucoup du dia generative donc tout ce qui est voilà et le lm etc donc c'est vrai que
là on parle d'appui payant mais on parle beaucoup de enfin on parle principalement d'appui de dia
generative et ensuite il faut savoir que ces modèles sont assez énormes alors pour l'instant on
a une course c'est un peu la course plus gros qui a la plus grosse en gros quoi et donc on se retrouve
avec des modèles gigantesques en fait généralistes et souvent alors c'est cool parce que c'est pratique
ce connect à la pays c'est pas très cher non plus quand tu prends un modèle quand tu me
restes dans un modèle classique gp t4 des trucs comme ça par contre ça reste quand même des gros
modèles donc tu fais quand même c'est un peu comme aller chercher son pain avec un tank quoi en gros
quand tu fais des tâches simples donc faut quand même avoir conscience de ça que là on fait tourner
des énormes modèles pour faire des tâches hyper simples donc voilà après faut juste en avoir
conscience de voilà qu'est ce qu'est ce qu'on a derrière après tu vas ce qui est intéressant
et ce qui pour nous en fait va va nous donner un petit peu plus de granulométrie sur sur notre
métier en fait c'est plus on va avoir un modèle qui va être entraîné sur une tâche spécifique plus
ce modèle là il va être précis dans ses réponses et comme tu l'as dit c'est des modèles très très
généralistes par contre on va avoir sur certains modèles par exemple je pense à sonnet sur
cloud ou à mixed trial en fait c'est des lm qui sont vraiment orientés pour le code donc pour nous
en fait ça va être super intéressant d'utiliser un lm spécialisé déjà dans le code parce qu'il a
été entraîné avec des bases de code il a en lui injecté la documentation lui injecter du code
plus ou moins de qualité on est bien d'accord mais on va déjà avoir un lm qui est plus spécifique
pour nous donc si on pose des questions orientées code autant se brancher directement sur un lm qui a
été entraîné sur une base de code parce que la pertinence des réponses l'inférence quand on va
poser la question le prompt la question on aura une réponse beaucoup plus qualitatif parce que
le data set a été entraîné le modèle a été entraîné avec un data set un jeu de données qui est
vraiment spécifique pour ça oui carrément et justement le bah pour en revenir encore à ça
le marché justement face à ces énormes modèles tout ça et en fait ce qui se passe c'est qu'ils
les entraînent de plus en plus tu vois on a toujours plus de paramètres etc et on est arrivé à
bouffer plus de données bah ça donne plus de meilleurs résultats donc en fait le marché
est en train de se diriger sur des modèles plus petits et spécifique sur des tâches et c'est
exactement ce que tu dis voilà sur un modèle spécifique qui a été entraîné pour du code
bah il sera il sera vraiment meilleur que gp t4 ou des choses comme ça sur le code parce qu'il a
été entraîné dessus et donc le marché est vraiment en train de partir là dessus sur des modèles plus
petits qui seront spécifiques à des tâches quand on était entraîné pour des trucs et ça semble
se diriger là dessus dans les prochains en tout cas en 2025 yes et bah pour rebondir en fait sur
sur la spécificité des modèles donc chaque modèle en fait va avoir des tâches spécifiques et
y a on va dire en tant que développeur on connaît tous github on va dire ou githlab
là vraiment le github des modèles y a ça s'appelle Hugingface et on ne peut pas faire
sang en fait c'est vraiment le github des modèles et en fait à l'intérieur on va trouver en fait
tous ces modèles là qui vont être répertoriés donc pour la plupart du temps c'est des modèles
qui vont être soit ouverts soit fermés c'est à dire que le modèle est déjà entraîné et bah
tu vas pouvoir l'utiliser ou toi tu vas pouvoir aussi l'augmenter avec tes propres données ou un
data set qu'on va retrouver où tu vas pouvoir télécharger un data set pour toi même entraîner
ton modèle par contre là on va on va discuter et on va parler justement de tous les problèmes
que ça amène en termes de puissance de calcul et de ressources énergétiques qu'il faut mais
je reviens pour l'instant je reviens sur les modèles et quand on voit la liste des modèles on
peut les chercher par non mais surtout en fait on va pouvoir avoir des plein de modèles qui vont
avoir des tâches spécifiques et on va pouvoir en fait poser des questions on va lui donner à manger
une photo on va pouvoir poser une question sur cette photo donc ça va être de l'audio du texte
des images vers du texte et ça c'est ce qu'on appelle des multimodales parce que on va lui donner
à manger non pas seulement du texte mais on va lui donner en fait une vidéo ou une image un son et
lui en fait il va pouvoir analyser ça et en transformer en quelque chose d'autre c'est d'où
l'intérêt en fait de faire audio texte ou texte de images texte ou texte donc c'est à dire qu'il
va prendre l'image il va analyser l'image il va la transformer en texte et la réponse qu'on va
avoir sera du texte et donc ça c'est ce qu'on appelle les modèles multimodales et qui vont aussi
on a on je pense à au pénia qui a sorti un modèle qui s'appelle saura qui lui en fait va pouvoir
générer créer des vidéos à partir d'un texte d'un prompt et donc voilà fait moins un 4x4 en 16
9e avec une résolution de temps qui marre qui roule dans le désert et qui fait des gerbes de dans
les dunes donc plus on va être précis plus il va générer l'image donc ça en fait c'est des modèles
qui utilisent des images des textes des sons c'est ce qu'on appelle des multimodales et après en
fait on va avoir plein plein plein d'autres modèles qui vont être entraînés à des tâches par
exemple bien plus spécifique où je vais lui donner une image il va me sortir en fait la description
de l'image précis en texte voilà c'est très très très précis mais ça va être hyper intéressant
bah pour par exemple faire de la classification de photos ou des choses comme ça on va avoir évidemment
tout ce qui est texte entré texte sorti c'est à dire bah toutes les fonctions qu'on connaît de résumé
je vais lui donner un texte tu vas me sortir un résumé tu vas faire le résumé du résumé
et ainsi de choses voilà ou juste écrit moi de la poésie ou des choses comme ça et donc
toujours est-il que dans dans ce Huggingface on va trouver tous ces modèles là qui sont plus ou
moins disponibles et qu'on va pouvoir utiliser mais faut bien comprendre que chaque modèle va être
avoir une tâche spécifique et donc ça c'est intéressant et je vous invite à regarder si
vous voulez sur la génération d'images on connaissait on connaît tous les images les plus
connues ça va être stable diffusion vous allez avoir des d'autres d'autres images directement
sorties de OpenIA par contre il y a un modèle qui est hallucinant qui s'appelle Black Forest Lab
et là ils ont sorti quelque chose qui s'appelle Flux donc il y a des flux 1 flux dev flux machin
sur la qualité des des rendus d'images c'est vraiment bluffant bluffant donc si vous utilisez
des images regardez flux flux de la société ou de la boîte qui s'appelle Black Forest très très
très qualitatif. Yes, alors, Huggingface comme tu l'as dit c'est le GitHub de tout ce qu'il y a
et justement parce que ça s'utilise vraiment comme GitHub en fait tu peux faire un Git clone
etc de modèle de dataset etc donc l'usage est assez simple dans l'ensemble et comme tu l'indiquais
dans les modèles il y a alors là si on regarde sur le nombre de modèles il y a plus d'un
je sais pas c'est un million c'est énorme combien un million de 184 690 voilà c'est juste énorme
et justement comme tu disais il y a chaque modèle à sa spécificité il est spécifique à une tâche
en fait donc c'est évidemment il faut vraiment prendre le modèle qui correspond à ce qu'on veut
faire et il y a aussi pareil quand tu fais de la génération de texte tout ça ou de texte classification
tout ça il y a un truc qui est super important évidemment en tant que français c'est le
langage c'est c'est con mais en fait il est très important en fait de prendre un langage qui est
multilangue quand tu veux faire des choses au niveau du texte ou ça sinon il va rien comprendre
en fait donc quand tu fais ton choix en fait toute la comme tu l'expliquais à tout ce qui à gauche
en fait c'est vraiment un tri pour trouver le modèle qui correspond à ce que tu as besoin français
classification de texte etc ou génération d'image ou n'importe quoi et après derrière c'est vraiment
facile de l'utiliser donc je sais pas si tu peux rentrer dans un modèle pour voir mais ouais bien
sûr alors normalement tu peux utiliser ce modèle par exemple là c'est un truc de microsoft je sais
pas quoi il sert celui là c'est une narration apparemment c'est le c'est vraiment le tout petit
modèle qui est pour embarquer dans dans les sites dans les sites où alors on va dire un visuel question
alors on va poser la question sur sur une image et qui importe mais ouais tu tu veux voir quoi
après ? Ouais n'importe c'était pour voir un fait pour voir un petit peu ce qu'on a en fait sur une
fiche de modèle ok en fait comment l'utilise parce que c'est assez simple alors l'idée c'est de l'utiliser
dans un premier temps sur votre ordinateur donc on a use cise modèle qui est à droite là et là
ils nous donnent des exemples de code en fait en général donc ce soit la plupart c'est en Python
mais aussi des exemples en js ça on y viendra après mais au niveau du langage majoritairement
c'est du Python et il y a pas mal de js aussi de t de type script mais c'est vraiment voilà et donc
à partir de là en fait on peut on va cloner ce modèle en fait sur notre ordinateur et on va
pouvoir l'utiliser directement sur l'ordinateur par contre c'est quand même pas super évident de
faire tourner ton modèle et en fait de faire ta propre inférence c'est à dire de prendre ton
modèle et de l'installer sur ta machine et de faire tourner ton modèle sur ta machine c'est un peu
la plaie quand même non ? Enfin je sais pas moi je trouve ça vraiment la plaie parce que t'es
obligé de te taper ton installation de Python sauf que ton modèle il a été entraîné avec une
certaine version de Python donc tu peux pas le faire tourner et t'as pas la bonne version de Python
donc tu télécharges la version de Python c'est quand même galère je trouve non ? Non c'est pas
d'accord avec moi ? Non j'ai pas eu trop de problèmes avec Python ça va je trouve que j'ai pas eu
ce problème de version de Python mais par contre après le modèle quand tu utilises le code l'exemple
déjà il te charge automatiquement le modèle en fait c'est sûr qu'après tu vas te retrouver avec
si tu te fais beaucoup de tests comme j'ai fait moi par exemple il y a pas longtemps au bout de
le moment t'en rendis comment surcharger le modèle plusieurs gigas donc ça faut faire gaffe et puis
surtout ça fait tourner le processeur suivant ce que tu veux faire c'est sûr que si tu veux faire de l'image
génération de l'image tout ça à ton ordinateur va pas mal chauffer mais après ça permet quand même
de tester les modèles de voir si ça correspond à ce que tu veux faire tester les petites tâches
ou ça c'est pas mal. Ok mais il y a quand même moyen de faire autrement pour installer en local
Attends on finit sur un gain face. Ok alors on reste sur un gain face. Non on reste sur un gain face ça t'a envie de faire.
On fait quand même le tour de gain face parce que c'est quand même un site qui est super important
et vraiment qu'il y a un gros acteur en fait au niveau du de l'IA et surtout que c'est un site
français à la base enfin français c'est des français concrètes. C'est des français par contre
ils se sont expatriés pour pouvoir sortir et je pense que en France ça n'aurait jamais pu sortir
de terre ce projet là ils ont réussi à sortir et à en faire ce qu'ils en ont fait parce qu'ils étaient
aux us et c'est triste mais c'est comme ça. Ah oui c'est clair. Donc après ces modèles en fait on peut
aussi les entraîner donc ça s'appelle du fine tuning c'est à dire alors on va expliquer ce que c'est le
fine tuning c'est à dire que là la plupart des modèles qui sont disponibles sur gain face
ont déjà été entraînés c'est pas des modèles qui sont de zéro donc ils ont déjà entraîné
sur des tâches spécifiques alors mis à part les images parce que là ça devient plus compliqué
d'entraîner mais par exemple sur du texte on va utiliser des dataset donc c'est pour ça qu'il y a
le long lait dataset dans gain face aussi donc il y a plein de dataset qui sont déjà disponibles et
en fait on va sur votre ordi toujours vous allez télécharger le modèle télécharger le dataset
donc c'est pareil c'est git clone dataset git clone modèle et ensuite on va vous écrire votre
dataset aussi alors dataset c'est hyper simple c'est du texte avec éventuellement à label on va
entraîner le modèle alors je vais pas faire un tuto parce qu'il y a pas mal de doc là dessus et
puis c'est pas le but de cet épisode mais vous pouvez voilà entraîner voilà l'exemple d'un dataset
on peut entraîner votre modèle vous allez entrer votre modèle sur votre ordinateur etc ça va le sauver
et ensuite vous le renvoyer donc dans votre répertoire sur gain face et à partir de là vous
avez un modèle qui a été fine-tuné sur des dataset spécifiques qui vous correspondent
donc en fait t'es en train de me dire que potentiellement on pourrait faire son notre propre
modèle basé sur notre sur nos propres data on a on a on a pris un modèle qu'on a enrichi qu'on a
fine-tuné avec notre propre notre propre données et on le réinjecte ce qui fait que quand maintenant
quand on lui pose une question et bah en fait notre inferrence a pris en compte en tout cas
l'inférence a pris en compte toute notre toute nos données qu'on a injecté dans notre modèle
c'est ça ouais ouais c'est ça après ça dépend le modèle que tu fais si tu fais de la classification
de texte moi j'avais fait un test sur du détecté du spam par exemple donc il me disait si c'est un
texte des spam ou pas pour les emails par exemple ou alors tu peux oui l'entraîner sur des data
on pourrait très bien l'entraîner sur tous les épisodes de podcast double slash et après lui
demander de générer par exemple des notes de l'émission des choses comme ça notre style
enfin voilà il ya plein d'idées faisables mais en fait c'est pas très compliqué c'est assez accessible
à faire alors c'est en piton par contre donc il faut apprendre il faut quand même maîtriser
le langage quoi ouais mais c'est pas un langage très compliqué il est assez concier et simple si tu
fais du js bon ça va c'est arrivé à sortir mais ouais pour dire que vraiment c'est accessible en
fait de pouvoir fine tune un modèle sur une face des data set ou créer son data set et puis le
réinjecter dans alors quand on a un compte gratuit le modèle qu'on va faillitiner il sera forcément
open source enfin il sera forcément ouvert il n'y a pas de privé et ensuite tu veux le mettre en
privé et le garder pour toi là par contre il faut un compte payant une face pour qui ne soit pas
visible en fait ouais c'est un peu comme sur github quoi github à l'époque maintenant on
va avoir des privés en gratuit mais voilà donc une face super plateforme qui vous permet quand même
de faire des choses super intéressantes accessible je n'ai pas très compliqué il y a beaucoup de
ressources dessus il y a toute une section lierne donc apprentissage tout ça ils expliquent comment
ça fonctionne et tout il y a vraiment vraiment beaucoup de ressources donc très bonne plateforme
et ensuite il y avait aussi l'espace le spaces où il y a où là il y a des modèles qui sont
il y a plein de modèles qui sont déjà là disposent tu peux les faire tourner c'est une
interface tu as un champ texte si c'est un texte tu as un champ image tu peux t'écharger une image
et tu vois en fait le résultat tu peux les tester en fait ok donc en fait c'est une inférence
qui est directement via leur interface donc tu n'as pas besoin de passer par une api ou quelque
chose c'est directement tu utilises le modèle via l'interface graphique qui s'appelle dans
une game face qui s'appelle spaces c'est ça dans une faute à une faute à finitiner ton modèle
et que tu l'as remis en fin dans ton ripot tu as créé ton ripot il ya ton modèle qui est finituré
tu peux le déployer dans spaces avec alors il y a une sorte de framework gradle je crois il s'appelle
il ya deux trois frameworks qui sont qui permettent de justement facilement de faire ces champ texte
etc et à partir de là tu peux tester ton modèle voilà ok et donnera les résultats et tout le monde
cessez puisque tu es en modèle ouvert donc il devient disponible et tout le monde peut s'amuser
avec ok par contre peut-être que tu n'es pas prioritaire sur sur la demande sur la ressource
que tu vas demander voilà ça va peut-être prendre du temps par contre c'est un super moyen de un peu
beta tester le truc de voir comment ça fonctionne et avant de justement de le mettre en tout cas
d'utiliser ce modèle avec une inférence spécifique avec toi même ton propre end point bah là en
fait tu utilises l'interface graphique pour pour crash tester un peu le truc quoi ouais ouais c'est
pas des trucs des foudres de guerre donc c'est souvent un peu long des fois d'avoir la réponse
bon là c'est gratuit bien sûr et dernier truc super intéressant aussi c'est que quand tu as fait
tout ça machin et des dispos tu peux le déployer donc tu fais un tel bouton de deploy et tu peux le
déployer sur l'inférence et piaille l'inférence end point voilà où là tu as un serveur que tu
vas payer et c'est magique parce qu'en fait ça déploie ton modèle il est disponible immédiatement
via une appui alors tu vas payer évidemment mais tu tu n'as rien à faire en fait ton modèle est
déployé et taïna pays tu vas appeler faire des appels dessus direct ok ça c'est fou et donc là
en fait on voit la la requête en piton si j'utilise la librairie piton ou la une requête
directement en java script ou bah en en en curle directement et en fait j'ai un point avec mon propre
token et donc ça je peux le copier ça dans mon code et en fait je peux utiliser ce modèle là
directement dans mon api dans mon programme de manière inodore un color et j'ai externalisé
toute la ressource et donc j'ai externalisé l'inférence l'utilisation de ce modèle directement
à une game face et comment ça marche tu payes tu payes à la seconde au token quand tu vas dans
dans deploy là tu as deux trucs en fait l'inférence épiaille alors ça c'est une inférence que
on peut utiliser limité quand un compte gratuit et un peu plus grande quand un compte payant
ok alors que l'inférence endpoints ça c'est vraiment un serveur dédié pour toi où tu vas
utiliser en production et là tu vas payer vraiment en fait tu vas choisir la machine un peu ce que tu
veux du gpu ou pas du cpu en fait ça dépend d'accord et là tu vas pouvoir le déployer dessus et
utiliser vraiment et là tu as un serveur derrière qui va déposer qui va dépoter quoi et après
super intéressant c'est que peu importe le tarif alors évidemment c'est plus ou moins cher
suivant ce que tu prends comme puissance mais tu peux le mettre en pause en fait c'est à dire
que tu as à un moment donné tu as de la classification texte ou tu dois faire une description
de l'image tu veux l'utiliser pendant deux trois heures donc tu vas faire ton truc et il n'y a pas
tu le mets en pause et donc tu payeras que c'est trois heures de utilisation c'est énorme c'est
énorme parce que par exemple on a on on imagine que nous on a envie de
transcrire de de de de faire une transcription graphique pardon textuelle de tous les épisodes
on va prendre une énorme machine là de gpu t4 machin nvidia qu'on va payer 50 centimes de l'heure
on va balancer tous les épisodes pendant une heure on va bombarder le serveur et à la fin de l'heure
on a on arrête la machine on la met en pause on arrête de payer c'est ça c'est ça c'est trop bien
c'est ça et surtout tu auras juste voilà tu as un ton modèle que tu auras fait une tinelle que tu
vas faire tourner dessus sans avoir rien fait ça va faire un API tu l'utilises tu mets en pause et
c'est terminé et donc c'est trop bien c'est c'est c'est vachement bien ça parce que ouais on n'a pas
géré toute la partie machine qui coûte qui coûte quand même beaucoup d'argent ouais il faut ça
ouais c'est c'est clair que l'IA en fait c'est c'est beaucoup c'est beaucoup d'argent c'est hardware
c'est du hardware spécifique et au-delà du hardware il ya la consommation énergétique qui va avec
et qui est qui coûte cher quoi donc si on a un usage on va dire très très limité on a meilleur
temps de payer à l'usage parce que avant de rentabiliser les 40 000 d'un 40 000 dollars d'un GPU
dédié spécifique et tout ça ouais on a intérêt à avoir un bon business modèle quoi c'est clair donc
ça voilà une face on a fait le tour vraiment intéressant donc franchement aller faire un tour
créer votre compte et tout c'est vraiment et amusez vous quoi avec les modèles et tout ça
est top yes patrick mais il ya d'autres solutions parce que moi je te dis ok là les modèles ils
tournent sur un autre serveur tout machin moi on va dire que dans ma boîte on a des spécificités
il faut que tout reste en local on veut pas balancer sur je sais pas qui des sites obscurs
tout ça moi je veux tout gérer en local comment je fais il ya deux solutions alors j'avais marqué
parce que je pensais en même temps que tu le disais j'étais en train de penser qu'il y avait
une autre solution ok la première solution c'est hollama c'est hollama c'est hollama c'est
une fois que tu l'installées en fait tu peux télécharger des modèles et les faire tourner
directement sur ton ordinateur voilà nice et ça marche et c'est compatible mac os linux et windows
et en fait ça va nous faire tourner les modèles en background et après on a une api on va dire
disponible ou de la même manière qu'on avait le deploy sur une face et bah on va là lui donner
accès au modèle et on aura une api on appelle directement local host 69 je sais plus combien
ou 73 je sais plus exactement le port mais en tout cas quand on lance la commande hollama on va
il va nous dire sur quel port il tourne et on va lui donner on va avoir chaque modèle va avoir son
endpoint dédié et donc on va pouvoir télécharger tous les modèles et là il y en a plein non des
modèles ouais je sais pas combien on a en tout bah il ya l'amma l'amma celui de méta évidemment
le dernier 733 en plus c'est le dernier 5 8 ouais c'est cinq semaines donc ça c'est voilà le dernier
dernier mais après il y a plein de modèles il y a d'autres modèles pour les images tout ça pour
l'amma 3d vision enfin voilà c'est et tout ça ça tourne sur l'ordi directement donc c'est pas mal
et le gros avantage c'est que ça sort en fait on reste tout en local il n'y a aucune fuite de données
parce que tout tourne sur son propre ordinateur par contre on va pas se leuré il faut quand même
une machine avec un peu de puissance quand même mais pas spécialement cpu mais plutôt gpu alors
pour le coup pour le coup les mac les m1 mais même 2 m3 tout ça ça s'y prête bien parce qu'ils
sont assez puissants mais même avec ça suivant le modèle qu'on fait tourner et puis suivant
la tâche qu'on demande aussi ouais ça peut vite monter dans les tours donc moi je me posais la
question justement on en parlait juste avant mais est ce que sur le long terme l'ordinateur
ça ne fatigue pas un petit peu à voir mais voilà après c'est j'ai envie de dire est ce que c'est
vrai c'est bien pour tester des choses tout ça en local développement etc t'essaie la maths
peut-être après en prod il va peut-être mieux utiliser des appays des inférences
comme ça justement comme on a vu sur une face ou les autres trucs on en parlera après mais en
tout cas ça marche très bien on peut alors celle dernier épisode qu'on avait fait on a demandé
s'il y avait des gens qui ne pouvaient pas coder avec des ia dans leur boîte il n'a rien qui a
répondu qui a dit que lui il pouvait pas justement sa boîte lui interdisait d'utiliser des ia pour
coder voilà donc ça c'est une solution justement et bien pour coder en branche et regarde regarde
regarde mistral tu mets mistral sur ton propre réseau tu mets mix trale pour pour le code alors
je vais te le chercher mix trale et pour le coup là il y a quelque chose qui est vraiment optimisé
pour le code et ça peut tourner en local et ça pourrait t'aider à taquer sur des une extension
genre continue dev ou des choses comme ça tu peux brancher directement ton modèle olama dessus et
donc là il ça passe plus sur les serveurs c'est tout en local il n'y a rien qui sort aucune
fuite aucune fuite de données tout reste en local c'est une super moi le gros avantage que je
trouve en fait de olama et on va pas se le ré c'est justement j'ai pas besoin d'installer
piton de faire tourner le modèle un peu à l'ancienne là en pète c'est un peu le docker
du des modèles quoi c'est hyper simple je prends mon modèle j'installe mon modèle il tourne je le
supprime je fais l'update du modèle s'il y a besoin et et je lance le modèle et j'ai tout de suite
un end point terminé quoi donc c'est vachement plus facile à utiliser par contre évidemment je vais
pas pouvoir en fait faire du fine tuning de modèle parce que là c'est vraiment pour faire de l'inférence
utilisation de modèle bam j'utilise ça et ça marche vraiment vraiment vraiment bien et c'est
tout à la main clairement c'est galère avec les versions de piton les versions du modèle
ça a été mis à jour et tout ça mais c'est intéressant de comprendre les tenants les
aboutissants du truc bien sûr bien sûr et l'autre c'était quoi c'était studio studio un truc
comme ça je sais plus comment s'appelle alors là je ne sais pas si tu le connais je crois attend
je le connais ok ça s'appelle comment ça te dit rien non il ya studio un truc comme ça
non je sais plus peut être comme ça mais je sais qu'il y en a un autre aussi pareil qui
permet d'installer un système en local et tu peux mettre des modèles tout ça j'ai perdu le nom mais
bref il y en a un deuxième mais je n'en avais plus du nom petit petit coup de coeur quand même
je suis obligé d'en parler petit coup de coeur de pour groc en fait qui se veut en fait et qui
insistent alors c'est pas c'est groc avec un cul et non pas avec un cas parce que avec un cas c'est
l'apii c'est lié à en fait de twitter et l'on musk voilà c'est son truc à lui là groc c'est
avec un cul et donc en fait ils se veulent comme l'inférence la plus rapide et tu dis ouais mais
en fait pourquoi tout ça moi j'ai creusé un peu le truc et en fait ils ont ils ont sorti en fait
leur propre processeur leur propre hardware qui est une sorte de mix entre un cpu et un gpu mais qui
est vraiment optimisé pour faire tourner des lm et donc c'est pour ça qu'ils arrivent à avoir
une vitesse d'exécution hallucinante et pour le coup moi j'utilise ça pour faire ma correction
orthographique parce que vous patrick peut attester que je suis je fais plein de faute mais plein
plein de faute et donc en fait j'utilise groc cloud avec un petit logiciel sur sur mac qui va
faire appel à groc pour me corriger les fautes et me retourner le truc donc j'utilise un lm classique
pour mon niveau de texte ça me suffit largement c'est largement assez évolué mais la vitesse
d'exécution est juste hallucinante et en fait ils ont des un business model qui est très très très
très très avantageux en fait tant qu'on est tant qu'on n'est pas très gourmand en token par heure
en fait on on paye pas ou très très peu et donc en termes de ratio token argent c'est très très très
c'est vraiment pas cher et c'est surtout ultra ultra ultra rapide alors quand on parle de token
en il ya il ya peut-être une explication à donner ça me parait important quand on parle de
token en fait souvent en tant que dev souvent c'est nos accès on parle d'api des accès ça va être
nos tokens on connaît tous le jwt le jole token pour qui va nous donner le jeton d'accès en il ya
souvent quand on parle des tokens en fait ça va être les informations qu'on va lui donner en
clair quand on va lui donner une instruction donc dans notre prompt dans notre prompt il va le modèle
en fait va découper le prompt en différents tokens alors c'est pas des syllables ça va être des mots
des associations de mots des choses comme ça c'est la manière dont il va découper et la toute petite
unité ça va être des tokens pour simplifier on pourrait dire que des mots mais c'est pas tout à fait
ça donc en clair on va avoir des tokens qui vont rentrer ça va être la question la demande et on
va avoir des tokens de sortie ça veut dire la réponse quoi le modèle va nous donner et donc
en fait on va payer l'entrée et on va payer la sortie mais ça me paraissait important de spécifier
ouais mais t'as raison parce qu'en fait c'est c'est ce qu'on paie exactement exactement et donc
les tokens et les petits pailles donc ouais et donc souvent en fait on y a un business model en
fait qui est basé sur le token d'entrée le token de sortie par contre parfois sur les images sur
les modèles d'image ça va être à la seconde d'exécution on va payer la seconde d'exécution
de la machine pour générer l'image l'image a été généré en cinq secondes on va donc payer les
cinq secondes d'utilisation machine voilà ce qui est ce qui est mais en fait pour résumer c'est
quand même pas cher voilà c'est ça qu'il faut il faut quand même très intéressant parce que moi j'utilise
Kerlig aussi sur mon mac et je savais pas que je pouvais brancher à croc je vais le faire de suite
après l'épisode non tu vas voir alors si je t'ai converti à Kerlig tu m'en vois le plus honoré
je te jure que quand tu vas utiliser Kerlig plus croc c'est juste trop trop bien ça me fait plaisir
Patrick je viens d'apprendre que tu es tu es entré dans la secte de Kerlig trop bien on va parler
vite fait de licence licence open source des modèles parce que c'est vrai qu'on a évidemment les
modèles fermés open eye tout ça mais on a aussi des modèles dit open source entre guillemets de
mistral de méta qu'est ce qu'on a d'autre on a d'autres en toute façon mais voilà qui se disent
open source et justement j'avais trouvé un article sur l'appellation open source des modèles qui
est pas justement des gens qui sont pas très vraiment d'accord donc l'open source initiative en
fait à tout simplement dit que les modèles de l'amma et de mixtral t'es pas du tout open source
en fait parce qu'ils considèrent tout simplement que pour dire qu'ils sont open source et bien il faut
en fait donner toutes les informations toutes les datas d'entraînement etc tout enfin toutes et
totalement transparent tout doit être disponible et c'est pas le cas en fait avec ces modèles donc
pour eux en fait c'est pas des modèles open source donc ils refusent en fait de les appeler comme ça
et pour eux même ils vont un peu plus loin ils disent même c'est du open source washing en fait
donc ça va ça va assez loin le goût est lâché donc moi je suis un petit peu d'accord avec eux
j'ai un peu ça fait un peu open source washing surtout de la part de méta mais bon après chacun
se fait son opinion en tout cas l'open source l'organisation l'oesi là a tranché et désormais
pour eux c'est pas open source voilà ouais et non mais après je comprends après la vraie
question c'est est ce qu'on est sur l'épaisseur du trait et où on est sur quelque chose de quand
même assez ouvert il faudrait quand même pas trop trop être méchant avec ces gens là non plus
même si je suis pas fan de méta et de marques et tout ça mais je pense moi aux français de
mistral et mixtral qui qui ont fait qui ont sorti des modèles qui donnent des modèles accessibles
gratuitement et il faut pas oublier que c'est eux qui ont payé l'entraînement tu vois parce que là en
fait depuis le départ on parle d'inférence tu vois donc d'utilisation de modèles ok tu payes
l'utilisation du modèle sauf que ce qui coûte hyper cher mais vraiment très très très très très
cher c'est l'entraînement du modèle c'est en fait de lui permettre d'être en capacité de générer
toutes ces phrases avec toutes ces modèles on a pris des agrégats de données et on lui a injecté
injecté injecté et le modèle en fait a appris mais c'est ça qui coûte de l'argent et ça ça coûte
super cher donc ok c'est pas du full full open source il faut pas être trop trop méchant avec
eux non plus quoi enfin tu vois il te donne accès à un modèle de langage qui te permet de faire des
phrases en français ou d'écrire du code de manière plus ou moins propre ok mais qui te
permet de générer du code à partir de rien et ça tu l'utilises gratos quoi tu vois donc soit
ah non mais je vois un assoup mais après je comprends que il y a cette notion de greenwashing
partout et là c'est de l'open source washing c'est aussi peut-être un moyen de se redorer un
peu le blason et tout ça ok là dessus je veux panier après je voudrais pas être non plus trop
méchant parce qu'il nous donne quand même accès à la puissance machine que nous dans notre côté
on aurait pas pu se permettre d'avoir si on était tout seul quoi tu vois donc mais en même temps
non mais je suis d'accord avec toi je suis d'accord avec toi mais c'est vrai que moi par exemple
actuellement entre open ai et mistral tu vois mon coeur balance plus vers mistral en me disant
bah ouais déjà ils sont français un peu Frenchy les gars en plus en plus ils ont des modèles
open source donc tu vois je me dis ah c'est quand même mieux et tout tu vois et donc ça penche quand
même ça fait pencher la balance quand même un petit peu tu vois donc d'un côté ça marche
ouais je suis complètement d'accord mais malheureusement en fait je ne voudrais pas qu'on
tue le produit mistral sous couvert d'idéologie tu vois ce qu'ils ont réussi à faire en tout cas
pourquoi moi je suis pro pro pro mistral tout simplement parce que les gars ils ont réussi
à faire ce que open ia fait avec 10 ou peut-être 100 fois plus de tune quoi eux ils ont réussi à
le faire avec beaucoup moins d'argent et beaucoup plus de de de talent et de jus de cerveau ils ont
réussi à faire un truc de ouf et et c'est des français et c'est trop bien ok il ya plein de choses
à redire peut-être quand tu vas fouiller et quand tu vas regarder sur l'épaisseur du trait ou
mais le résultat c'est que t'as une boîte française mistral qui est alors avec des fonds
des des des financements plus ou moins américains ok ok on s'en fout mais en face ta grok x en face
ta microsoft et ta open ia meta google et là maintenant t'en as un qui s'appelle mistral et
et ils ont réellement réussi à rentrer à faire des trucs solides quoi donc moi je ne voudrais
pas que j'ai rien contre ce jeune journaliste plus ou moins jeune d'ailleurs je sais même pas
qui c'est yannick chavane très bien il est c'est très sympa c'est très bien mais sous couvert
d'idéologie je veux pas tuer le projet quoi voilà c'était ouais attention moi je suis fan de mistral
et d'autant que les modèles open source actuellement alors 10 open source sont aussi
performants voir des fois plus performants sur certaines tâches que les modèles fermés donc
à ce niveau là c'est top après je vois on en reparlera d'autres sur d'autres trucs parce qu'après
aussi faut faire gaffe au licence aussi parce que apparemment il ya certaines licences alors je
pense peut-être à lama ou si tu l'utilises dans un business à partir d'un certain nombre
utilisateur ou de je sais plus exactement tu devras peut-être payer quelque chose à meta mais bon
après j'ai pas été dans les licences tout savoir mais voilà bon bref on va passer aux choses
vite fait alors on a parlé déjà piton java script tout ça donc les langages pour coder et
notamment avec ce qu'on va ce qui va suivre derrière c'est les rags clairement ça sera piton ou
js type script obligatoirement c'est à dire que php tu peux oublier c'est même pas la peine ça
n'existe pas en fait dans le tout ce que développement il ya tout ça enfin ça n'existe pas il n'y a
même pas de librairie tout ça voilà c'est même pas la peine et les librairies donc les plus connues
c'est l'anx chain qui existe en deux versions piton et js donc ça c'est cool et donc ça
permet vraiment de travailler avec des modèles c'est à dire de chunky etc donc on va parler
juste après mais à toute une librairie de l'utilitaire pour faire du rags pour se connecter
etc il y a pas mal d'adapteurs pour tout ce qui est fournisseur open eye tout ça entropy
c'est déjà disponible donc voilà l'anx chain il ya l'anx miss aussi qui est un service qui est
lié avec ça mais qui est enfin il y a un versé en gratuite mais aussi payant donc il permet de
logger tout ça tout ce qu'on fait donc voilà super super outil open source donc l'anx chain
en fait c'est une suite d'outils pour développer un applicatif utilisant des lm et toute la
puissance des lm aussi bien sur l'extraction de données le découpage de données ou les choses
comme ça c'est un framework qui va nous faciliter la vie c'est ça si on veut intégrer de l'IA dans
notre dans notre coeur d'application quoi c'est ça ouais tu veux développer un certain système
basé sur l'IA c'est faut passer sur les systèmes comme ça des frameworks comme tu dis ouais c'est
un framework plein d'utilitaire qui permet de gagner du temps mais de ne pas réinventer
la chaîne à chaque fois ouais ok ça marche la chaîne là de réinventer la roue la roue
la roue ok et ça marche et tu parlais tout à l'heure de de rags en fait déjà qu'est ce que
c'est un rags à quoi ça sert et pourquoi c'est intéressant un rag c'est quoi alors un rag c'est
ça veut dire retrait retrival augmenter de génération donc c'est la génération augmenter de
récupération en français et tout simplement le principe en fait c'est de d'utiliser une
IA donc n'importe que ce soit une API n'importe quoi mais de lui donner un contexte c'est à dire
que tu vas lui donner du texte en lui disant utilise ce contexte pour répondre à la question et tu
n'apport pas de ça et donc il va donc utiliser ce contexte et répondre correctement à la personne
donc ça peut être pour des chatbot des choses comme ça donc on peut très bien lui donner des
vous allez le contenu de votre site internet ça peut être le contenu d'une FAQ ça peut être des PDF
ça peut être du texte enfin voilà tout ce que tu veux et à chaque fois on lui donne du contexte et
elle va utiliser ce contexte pour répondre correctement donc donc ça imite le grand avantage c'est
le réentraînement sur vos données on prend un modèle comme il est et surtout ça évite l'allucination
qu'on peut trouver dans pas mal de modèles puisqu'on lui dit vraiment utilise ce contexte et ne
sort pas de ce contexte et tu réponds avec ça et si tu ne trouve pas tu dis que je sais pas et
généralement ça marche plutôt pas mal et donc ça en fait c'est très intéressant pour par exemple
des corps de métier très très très spécifique avec des données très très spécifiques par exemple
je sais pas on serait un avocat on lui donne le droit du travail pour les plus de 60 ans voilà par
exemple et on va lui donner à manger ce texte-là sauf que le lm on va dire dit classique lui il est
pas en connaît il ne connaît pas tous ces textes de loi ou comme tu l'as dit sur des FAQ sur des
trucs sur des corps de métier très très très spécifique le modèle il est général et donc
il va pas connaître ces informations là donc en fait on va lui donner de l'intelligence
dite métier pour que il puisse répondre à la question qu'on va lui poser en prenant compte
ses propres informations ce qui fait que si on lui donne la doc de notre entreprise potentiellement
en fait le lm va juste être là pour générer la phrase mais le sens de la phrase va être fait
par les infos qu'on lui a donné c'est ça voilà la connaissance elle est dans le contexte que
tu lui as donné lui l'ajuste à générer le texte ce qui c'est le mieux faire finalement faire un
résumé une génération de texte par rapport à quelque chose et exemple par un petit exemple
concrète le bon coin ils ont fait ils ont expérimente un peu expérimental mais l'utilise
quand même il répond à pas mal de questions ils ont le service client ils ont développé un
système qui va répondre à des questions en fait ils sont rendus compte que la plupart des
questions étaient répondables en fait parce que les réponses sont déjà dans les facus mais les
gens ne vont pas dans les facus en main directement et bah en fait ils ont fait quoi ils ont fait un
rague qui va qui prend les réponses dans la facu qui répond aux gens tout simplement par mail
enfin par le message quoi et donc ils répondent à peu près 10% des messages comme ça généralement
ça marche bien voilà un exemple concret voilà de rague qui fonctionne dans la vie corante et
pour le coup pour des prestations de sport par exemple je pense à des prestations de ski je
dis ça juste par hasard mais en fait les clients nous posent toujours toujours la même question
et donc potentiellement on pourrait facilement en fait répondre toujours les questions enfin
répondre facilement à ces questions par une génération par un lm quoi et donc même si même
si le client ne veut pas ou en tout cas même la société ne veut pas faire une réponse
automatique par un rague mais on pourrait générer une réponse automatique et après c'est l'agent qui
prend le texte et qui le copie et qui répond à la demande donc il faut pas voir ça comme un chatbot
qui répond automatiquement mais peut-être comme un outil pour faciliter le boulot des agents qui
répondent aux utilisateurs donc soit on expose directement le chatbot aux clients soit on crée
un outil qui facilite la vie de l'agent et ça ça peut être super intéressant techniquement par
contre comment ça marche techniquement alors techniquement c'est pas hyper compliqué mais
en fait il ya une phase alors il ya différents il ya différentes phases mais à la phase du
chunk donc on va découper en fait tu vas récupérer tout ta data tu vas le découper et tu vas le
mettre dans une base de données vectorielles donc là on parle de base de données vectorielles c'est
à dire que les on va transformer le texte en vecteur donc les vecteurs c'est des numéros des
suites de numéros voilà c'est des dimensions il ya différentes dimensions en fonction de ce qu'on
veut comme précision etc ça va être sauvage de base de données vectorielles et ensuite on
va faire des requêtes et il va trouver par rapport à la requête de la personne parce que dans un
premier temps la personne va dire comment je peux faire telle action alors on va aller chercher ce
qui correspond à ce qu'elle a dit dans la base de données vectorielles et on va récupérer du texte
qui correspond à sa requête et c'est après ce texte là qu'on va donner en fait au lm qui va s'occuper
de générer la réponse ok super ça paraît complexe comme ça mais au final c'est pas si complexe
que ça en fait c'est non c'est juste voilà il ya une première phase de d'injection de toute la
donnée spécifique qu'on va transformer en en en vecteur en base de données vectorielles mais je
pense qu'on refraie un épisode un peu dédié sur les rags parce que je pense que techniquement
c'est super intéressant on fera aussi sur des bases de données vectorielles pourquoi il ya eu
l'explosion il ya eu plein de bases de données qui ont sorti avec des levées de fonds mais hallucinantes
et pourquoi en fait ça a amené autant de valeur justement parce que parce que ça ouvre beaucoup
beaucoup de perspectives mais on fera sans doute le rags clairement clairement le rags en ce moment
c'est ça intéresse beaucoup d'entreprises donc il ya beaucoup de demandes enfin on est
au début en fait il faut savoir que je sais pas si c'est pareil pour toi mais je me rends compte
que en discutant avec des entreprises tout ça pour l'instant ils sont un peu frileux ils ne savent pas
trop par où commencer tu vois ils aimeraient faire de l'IA proposer des services tout ça mais ils
savent pas trop donc à un moment de l'es, ça va bouger ça bouge déjà ils se renseignent tout ça
mais le rags c'est vraiment quelque chose qui les intéresse beaucoup parce que parce que chatbot
alors c'est le retour du chatbot clairement mais pas le chatbot pourri qu'on connaissait avant c'est
le chatbot ou de la documentation en interne ça peut être enfin il ya vraiment beaucoup de possibilités
en fait et le rags c'est vraiment quelque chose qui est en train d'exploser après toi tu dis les
sociétés sont prêtes enfin les boîtes sont prêtes ça va dépendre de la maturité de l'entreprise
moi je travaille pour un gros client je ne peux pas dire le mot IA si je dis le mot IA pour eux c'est
terminateur limite c'est Satan c'est mal c'est non non surtout pas quoi donc donc en fait j'ai
d'autres clients qui disent qu'ils sont super chauds qui disent vas-y on y va on vas-y il est chaud
quoi donc il faut il faut voir à quel niveau de maturité par contre je pense que dire le mot
IA ne va pas toujours les aider enfin ne va pas toujours nous aider par contre que nous on utilise
des IA pour solutionner des problèmes que les clients ont ouais ça ça je suis intimement
convaincu qu'il ya des billets à les prendre sur la table clairement et en fait nous on vient
avec des solutions techniques qui répondent à un problème cette cette solution utilise IA
et oui mais vendre l'IA au client pour lui c'est une boîte noire c'est mystique il comprend
pas tout il a entendu parler de chat gp t mais ouais il a joué avec sur son téléphone il a
posé une question il a il a sorti une hallucination et non mais voilà quoi donc il faut bien je pense
il faut bien faire de la pédagogie il faut bien lui expliquer comment ça marche et pourquoi en
fait c'est intéressant et quel les fondamentaux les fondamentaux quel problème ça résout et
je pense si on a expliqué ça quel problème ça résout et puis si jamais tu veux convaincre aussi
c'est d'avoir un mot un poc ou quelque chose qui fonctionne et ce qui est super important que ça
fonctionne bien en fait pour convaincre direct en fait faut pas que ça déconne un petit peu tout ça
il faut vraiment que si tu fais un râge il faut qu'il réponde bien correctement à la question tout ça
et là tu vas les convaincre parce que là ça va les rendre fou en fait bon ouais donc ouais
enfin de façon ouais le rach ça mérite un épisode complet parce que les bases de données
vectorielles c'est juste hallucinant ouais ouais c'est exactement ça quoi c'est exactement ça
allez on va peut-être aborder là le dernier pencher on va dire penchant de l'épisode le
dernier chapitre de l'épisode où justement une fois qu'on a un peu tout notre système en place
on a vu qu'on pouvait directement dédé de on va dire détacher le modèle et ne payer que l'inférence
parce que on gère l'infrastructure et géré par un tiers néanmoins il y a d'autres possibilités si
vous êtes déjà un niveau de maturité assez forte il y a possibilité en fait de déployer
ses propres modèles et comme on peut le faire sur des des bar metales où on va on va prendre
notre serveur et on va faire tourner notre nos applicatifs directement sur des serveurs là on a
la possibilité d'acheter des serveurs dédiés et on va faire tourner notre modèle dessus et
là il y a qui dans la place pour faire ça bah toujours les mêmes à ma zone azur
toujours les mêmes amazon bedrock qui permet de faire de l'inférence d'entraîner des modèles
tout ça d'utiliser des serveurs pour le faire alors me demande pas les tarifs parce que c'est
amazon c'est impossible de savoir combien ça va coûter voilà tout s'y propose aujourd'hui des
serveurs où tu peux mettre ton modèle le déployer tout ça donc c'est déjà dit on en
parlé déjà dans une face c'est déjà disponible pour le déployer directement sur ses providers
donc il y a déjà pas mal de trucs et tout à l'heure tu parlais de croc aussi il ya d'autres voilà
il ya d'autres services qui proposent aussi donc info maniac qui depuis pas longtemps il propose
de l'inférence sur des modèles qui sont open source sur des tarifs plutôt intéressants c'est
hébergé en suisse voilà tarif modique pas mal de la vision mixtrale tout ça et dans le même
délire où on parlait tout à l'heure de la face avec le sentiment pardon oui je dois dire exactement
j'ai ma invoice de de de 18 centimes chez réplique et réplique n'est à peu près exactement
pareil que une face sauf que va pas y avoir toute le data set d'entraînement mais en tout cas
pour l'an pour les mots pour faire tourner des modèles on va avoir exactement la même chose
et on va avoir le déploiement via une api et tout donc c'est un un concurrent à une face
clairement et ce qui nous permet en fait d'avoir d'avoir plusieurs acteurs qui se tirent à la
bourre et de la même manière en fait on va pouvoir utiliser le modèle soit soit via
leur leur librairie nod pareil piton ou http mais en tout cas il ya d'autres il ya d'autres
possibilités de de faire tourner en fait tous ces modèles là directement depuis depuis des
serveurs dédiés oui yes il ya de quoi faire et la dernière chose c'est qu'il ya énormément il ya
beaucoup beaucoup de ressources en fait sur le web le fait de l'explosion de lm de rag et
terrain franchement il ya énormément à lire il ya beaucoup de ressources donc pas besoin de payer
des formations ou quoi que ce soit tout ce qui est en ligne déjà c'est largement suffisant ne serait
ce que sur une face ou des choses comme ça enfin la plupart des des fournisseurs des providers d'illat
ou ça propose toute une documentation il ya souvent beaucoup à lire donc voilà pour se former
c'est pas compliqué top top écoute patrick je te propose qu'on en reste là pour pour ce pour
cet épisode là le premier de la série il ya où on viendra en fait affiner peau finé plongé en
plus en profondeur dans toutes les possibilités que qui s'offre à nous en tant que développeur et
comment peut tirer parti nous de toute cette effervescence liée à lia et donc et bah on remercie
toutes les épisodes toutes les personnes qui sont restées jusqu'au bout de l'épisode et on vous
dit à bientôt pour pour la suite ciao ciao
si
Episode suivant:
Les infos glanées
DoubleSlashPodcast
Double Slash, un podcast sur le développement web. Retrouvez-nous régulièrement pour parler de sujets variés tels que la JAMStack, l’accessibilité, l’écoconception, React.js, Vue.js, Next.js, Nuxt.js, le CSS et des retours d’expériences sur des implémentations.
Tags
Card title
[{'term': 'Technology', 'label': None, 'scheme': None}, {'term': 'Technology', 'label': None, 'scheme': 'http://www.itunes.com/'}]
Go somewhere
Les news web dev pour janvier 2025