Juste avant de démarrer l'épisode, un petit mot pour ceux qui ont déjà pensé à mettre leur logement sur Airbnb,
le partenaire de cet épisode, mais qui se disent que ça fait un peu trop de travail.
Eh ben, Airbnb propose un truc plutôt malin.
Le réseau de CoAute.
J'ai des potes qui font ça parfois le week-end à Paris et c'est très pratique.
Imaginez, pendant que vous êtes absent, un CoAute expérimenté s'occupe de presque tout.
La remise des clés, le ménage, les échanges avec les voyageurs,
même la gestion du calendrier ou des photos si besoin.
Ça vous permet de générer un petit peu d'argent pour vous faire plaisir sans avoir à vous en occuper.
Alors, trouvez un CoAute sur rbnb.fr slash haute.
H-O-T-E.
Merci Airbnb et bon épisode.
Ça fait des mois qu'on nous bassine avec Eliac qui va révolutionner tous les métiers ou remplacer tous les emplois.
Sauf que dans la vraie vie, quand on essaie de construire un outil d'IA qui marche vraiment,
c'est souvent une autre histoire.
Et justement, je vous parle d'expérience parce que ça fait quelques mois qu'on a développé un système
pour gérer nos podcasts complètement automatiquement.
Et je vais pouvoir vous montrer exactement à quoi ça ressemble de développer un outil IA utile de A à Z.
Pas une vague interface par-dessus chat gpt ou une énième automatisation de triage d'email,
mais un outil concret qui tourne en production et qui résout un vrai problème.
Le but, c'est de montrer l'envers du décor de l'IA en entreprise.
Se perdre dans la jungle des modèles et des promesses saléchantes,
le fine-cuning fastidieux, l'excitation de l'expérimentation et le désespoir des impasses.
Vous allez voir, pas de solution miracle, pas de bouton magique,
juste beaucoup beaucoup d'essai.
Et au bout, avec un peu de chance, un outil qui fonctionne vraiment.
Aujourd'hui, je vous raconte comment on a construit mon nouveau jouet préféré.
Pour comprendre un petit peu déjà, on part d'où comment marche ces modèles et avec quoi on travaille,
c'est pas mal d'avoir une petite intuition de comment ça fonctionne.
Donc l'image la plus parlante, je trouve, c'est celle du débrouilletage.
C'est concrètement de comprendre le principe de la diffusion et de ce qu'on appelle un auto-encoder.
En gros, le principe, c'est que pour entraîner le modèle et lui créer cette sorte de compréhension du monde et des objets,
tu vas créer un immense data set d'image et tu vas appliquer un léger bruit dessus,
une légère perturbation de la matrice de pixels.
Et le job de ton système d'apprentissage, ça va être de reconstruire l'image d'origine.
Et en gros, sa fonction d'accompense, son mécanisme d'apprentissage va le récompenser
dans sa capacité à recréer le plus parfaitement possible l'image d'origine.
Donc au début, tu commences avec des niveaux de bruit qui sont très faibles.
Donc c'est relativement facile de reconstruire les textures, etc.
Et petit à petit, tu vas détruire de plus en plus ton image
jusqu'à ce que ton modèle, à partir uniquement du bruit
et de la description en texte de l'image, est capable de la reconstruire entièrement.
Et c'est ça, la magie du truc, c'est que, entre-temps, ton image est complètement disparu.
Et donc ton modèle est capable, avec du rien, du bruit, de générer plein de variantes
qui correspondent à ton texte. C'est un peu ça la magie de la diffusion, en fait.
Et ce qui est intéressant, c'est que ce que tu vises, c'est d'avoir un modèle qui est relativement créatif.
C'est un peu l'autre truc à comprendre, c'est que ces modèles-là,
ils sont constamment en tension entre deux extrêmes.
Il y en a qui sont capables de faire des super belles femmes brunes en portrait.
Sauf que tu vas le relancer 20 fois, ça va être toujours la même, en fait.
Et ça, c'est un modèle qui est tombé dans l'apprentissage par coeur
et qui est plus capable de généraliser.
On est sur du bâchotage.
Oui, exactement.
Et tu as un autre extrême des modèles qui ne vont pas être capables de faire du réalisme
ou qui vont avoir des résultats toujours un peu très flou, très bleuris,
mais qui vont être très variés.
Et donc tout l'enjeu des gens qui créent des modèles de ce type-là,
pour comprendre, il faut dire qu'ils sont tout le temps entre ces deux écueils-là
et ils essaient d'avoir le meilleur des deux mondes en employant des techniques distinctes.
Ce qui est marrant, c'est que les modèles d'image,
enfin les modèles de diffusion, ça te fait depuis bien avant que stable diffusion que ça existe.
D' 2014, tu as des premiers exemples de modèles de diffusion,
typiquement pour générer des chiffres.
La grosse limite de ces modèles primitifs, c'est qu'en fait, ils marchaient avec des labels.
Donc en gros, c'était discret.
Tu pouvais générer une image sur le label pêcheur.
Voilà, ça te donnait des images de pêcheur.
Mais si tu voulais un pêcheur avec un chapeau rouge, c'était pas entraîné pour.
Donc la vraie révolution, c'est le fait de combiner un modèle de diffusion
avec justement un modèle comme clip.
En gros, le principe de base, c'est que tu vas représenter au sein d'un même espace vectoriel
du texte et de l'image.
Et donc tu vas de cette manière-là pouvoir entraîner un modèle qui va être générique sur n'importe quel texte.
Il va pouvoir comprendre justement le lien entre la sémantique du texte et la représentation d'un image.
Et c'est en ça qu'il y a déclenché la révolution qu'on connaît aujourd'hui.
Un autre truc trop intéressant dans l'histoire des modèles de diffusion, c'est qu'à partir du moment où on avait la théorie pour les créer,
il fallait des quantités de données massives et d'images en fait.
Sauf que le problème, c'est qu'en termes de quantités disponibles en masse, ce qu'on a, globalement, c'est Internet.
Donc c'est typiquement un dataset qui s'appelle Common Crawl, qui constitue une sorte d'emprunt à un instant T d'Internet.
Là-dedans, tu as du texte et de l'image.
Donc tu veux pouvoir déjà extraire uniquement toutes les images pour servir de base d'entraînement.
Et pour ça, ce qu'ils ont fait, c'est très simple, c'est que tu scannes toutes les pages web, tu regardes les tags images,
tous les développeurs les connaissent, et tu vas extraire aussi la description qui est associée.
Donc ce qu'on a le halt qui en général est fait pour les moteurs de recherche ou pour les histoires d'accessibilité qui contiennent une description de l'image.
Le problème de ça, c'est qu'en Internet, on le sait bien qu'il n'y a pas que des belles images.
Même il y a peut-être en grande majorité des trucs pas beaux, ignobles, voire illégaux.
Et donc la question, c'est comment tu filtres ce qui est beau de ce qui n'est pas beau ?
Bon, dans les faits, ce qui se passe, c'est qu'on a des dataset où les humains donnent des notes à des images en très grande quantité.
Donc tu en as plein, typiquement il y a Flickr, et c'est un énorme dataset de notes.
Alors soit c'est des pouces vers le haut, vers le bas, soit c'est vraiment des notes sur 5.
Il y a Ava, enfin voilà, il y a plusieurs dataset, que sont les dataset esthétiques.
Et ce que tu vas faire, c'est que tu vas prendre un modèle comme clip,
justement, qui sert à lui avoir une première représentation d'une image justement,
et tu vas entraîner par-dessus un modèle de scoring esthétique.
C'est-à-dire qu'on lui donne une image, on lui dit, essaye de prédire la note sur 5 de cette image sur le plan esthétique.
Il va y faire une tentative, et on va le corriger, et il va lui faire un prendre sur un dataset.
On pourrait s'attendre à des résultats chaotiques, mais ce n'est pas ce qu'on obtient.
En fait, ça converge.
Il semble que, spoiler, il y a une notion de beauté universelle.
Même si il y a quand même pas mal de variances dans les résultats.
Et c'est les premiers modèles qui ont été construits comme ça,
les premiers dataset, qui s'appelle LionEsthetics,
qui correspondent à Internet filtrés sur tout ce qui est 5 étoiles et plus.
Et ça, il faut se dire que, avant qu'on ait ça, tout ce qu'on a connu derrière comme modèle d'image était impossible.
Une deuxième avancée majeure qui a eu, c'est que, là, dans les modèles primitifs qu'on voit,
ils essaient de générer une matrice de pixel directement.
Donc, une image, ce qui était très demandeur en ressources, en mémoire et en capacité à être calcul.
Et, en fait, la révolution qui amène Stability Fusion, entre autres, la première version,
c'est de créer une représentation intermédiaire.
C'est le fameux espace latin.
Il y a une manière intuitive de faire une analogie, c'est la compression d'image.
Quand je t'envoie une image par message ou par mail,
si tu la télécharges, elle va faire, je ne sais pas moi, 100 kilobits par exemple.
Là, on a un petit exemple avec un chien.
Donc là, celui que vous voyez à gauche, il fait 80 kiloctets.
Alors que la version originale qui sort de l'appareil photo, elle, elle fait 1 MHz en PNG.
Arrêté, c'est que l'œil humain est absolument capable de voir la différence.
Alors qu'il y a 10 fois moins de données.
Tu vois, une première intuition du fait que l'œil humain ne se représente pas la donnée de la même manière.
C'est-à-dire qu'en gros, si la texture du poil, du chien,
n'est pas parfaite et similaire à l'original,
mais que tous les autres détails sont bons,
en fait, ton œil humain, il ne verra jamais la différence.
Bah l'espace latin, c'est une analogie, mais il faut dire que c'est un peu la même chose.
Ça va décrire le contenu de l'image le plus précisément possible.
Et à partir de cet espace latin, tu vas pouvoir générer ton image finale avec le décoder.
C'est ça qui a vraiment révolutionné aussi les modèles d'image.
C'est que d'un coup, on se retrouve à travailler avec des ressources beaucoup plus restreintes.
C'est ça qui fait que sur ton ordi gamer, tu peux faire tourner des modèles d'image complètement hallucinants,
même de vidéo maintenant.
Cette transition qui a eu lieu donc sur la manière de décréer les images,
elle a aussi été accompagnée de grosses améliorations assez invisibles
pour les gens qui ne sont pas passionnés par la question,
sur ce qu'on appelle l'adérance aux promptes.
En fait, c'est un terme qui décrit simplement le fait que quand tu demande quelque chose,
il se passe quelque chose.
Quand tu rentres dans du spécifique, ton modèle est capable de te suivre
et d'être fidèle à ce que tu demandes.
Donc, typiquement, ça, c'est des images générées à gauche par SDXL,
qui est un ancien modèle de stabilité.
Et à droite, Flux Pro 1.1, qui est un des taux derniers modèles faits par Black Forest Labs,
qui sont des anciens de stabilité.
Bref, c'est toujours les mêmes genres dans tous les cas.
Et le point de c'est, il y a une boule verte sur un cul bleu,
lui-même sur une pyramide rouge,
il y a un chien à leur gauche et un chat à leur droite.
Et il faut dire que malgré sur le plan purement esthétique,
on aurait pu dire SDXL, c'était déjà super bien.
Sur le plan de l'adhérence aux promes, c'est catastrophique.
Et à gauche, il n'a rien compris.
Et à droite, c'est parfaitement ce qu'on a demandé.
Exactement.
Les créateurs de modèle vont avoir des benchmarks pour mesurer ça précisément.
C'est-à-dire que tu dois pouvoir modifier l'ordre dans ton prompt.
Donc, tu dois pouvoir échanger cul bleu et boule jaune
et obtenir le résultat qui correspond.
C'est fort, ouais.
Ça peut paraître anodin comme ça.
Mais l'arriété, c'est que dès que tu veux commencer à utiliser ces modèles de manière professionnelle,
si tu n'as pas ça, ça change tout en fait.
Exactement.
La dernière nouveauté la plus récente que vous avez peut-être vu passer
avec des annonces de Google par exemple,
avec des modèles qui s'appellent Banana,
Nano Banana ou Contexte.
Ce sont des modèles qui sont en capacité d'éditer ton image sans la détruire.
Avant, dans ton processus pour de création d'image,
mettons tu veux créer un poster.
C'était quoi tes possibilités pour travailler de manière iterative ?
Donc tu fais ta première génération d'image,
souvent elle est bien mais elle n'est pas parfaite.
Donc ça, c'est 99,9% du temps.
Historiquement, tes options pour retravailler ça,
c'était par exemple de faire de l'in-painting.
Donc en gros, tu pouvais sélectionner une zone de ton image
et aller faire des générations supplémentaires dans un espace contraint.
Ça, ça marchait à peu près.
Alors déjà, ce n'est pas honnêtement aussi parfait que ça en a l'air.
Et en gros, deuxièmement, c'est limité à une édition ciblée.
Donc par exemple, vous je vous prends en photo,
j'aimerais vous dire, j'aimerais cette image un peu plus contrastée
et changer la lumière derrière vous pour qu'elle soit plus bleue mais qu'elle soit verte.
Donc déjà dans Photoshop, comment il faudrait faire ça ?
Donc il faudrait aller modifier l'alipiquement bleu pour qu'il devienne vert.
Et aussi, les lumières derrière vous.
C'est à dire que vous avez une backlight qui vient de derrière vous, qui est bleue.
Et donc en fait, il y a des liserées de lumière et des reflets partout
du fait qu'il y a cette lumière derrière vous.
Ça, historiquement, avec un bon modèle, soit du premier coup,
tu arrives à le générer et il est excellent pour y arriver.
Mais si en deuxième temps, tu veux faire des changements locaux, ça ne marche pas, c'est marrant.
Là, la révolution des nouveaux modèles, comme Nano Banala,
c'est que c'est un Photoshop, mais avec qui tu parles par message en fait.
Donc tu dis changement à la couleur de la lumière, qui change la lumière
et toutes les conséquences que ça a sur l'image.
En préservant ton visage, les identités, le reste du décor.
Et c'est ça la nouveauté, c'est de la modification non destructive.
Parce qu'il ne va pas régénérer toute l'image en essayant de coller au plus proche de l'ancienne.
D'un effet, le modèle derrière te régénère toute l'image,
mais il est fait de sorte à s'orienter uniquement sur les changements que tu as demandé
et pas à les détruire le reste.
Alors je vous dis ça, ce n'est pas un ou off.
C'est-à-dire qu'il va peu modifier.
Et contexte, quand c'est sorti à 6 mois,
elle est modifiée ta gueule et elle est allée devenir quelqu'un d'autre.
Les Bananas récents, il ne faut le faire quasiment plus.
Il faut le voir comme une progression exponentielle.
Un cas d'usage typique, c'est...
Et nous, qu'on utilise réellement, c'est...
On va faire par exemple une miniature de vidéo entièrement nous-mêmes.
Paunia n'a été utilisé dedans.
Par contre, quand on va vouloir faire un A-B test,
on va lui demander de créer trois autres versions.
Ou cette fois, tu lui mets un chapeau sur la tête.
Ou tu changes le texte.
Donc là, par exemple, dans les miniatures, il y en a certaines dont le texte est généré.
Ah fort.
Je pense par exemple à celle qui parle de Dozins, avec Sylvain.
On a donné à Alial une première version avec un autre texte.
Il a demandé de la changer.
En fait, il a compris quelle était la poise de caractère de la première image.
C'est fou ça.
Et donc, il est capable de te régénérer un texte différent.
Alors ça peut paraître un peu con pour les gens qui vendent du photoshop.
Parce que, finalement, c'est juste...
Oui, modifier un texte dans photoshop.
Mais en tout cas, la technique derrière est incroyable.
Exactement.
Sur celle-là aussi,
Sylvain, le jour où il n'était pas venu avec un gilet rouge.
Ça m'avait donné un petit indice.
De même qu'il est réellement venu avec des objets qui nous a présentés.
Mais ils n'étaient pas emballés dans une jolie case,
une flight case noire toute propre.
Je vais vous montrer les outils qu'on a développés et tous les tests qu'on a fait.
Avant de vous montrer ça, il faut juste que j'explique un tout petit peu le contexte
pour ceux qui ne connaissent pas à quoi ressemble notre métier.
90% de notre énergie et de nos ressources et de notre argent passent dans le fait de créer des vidéos.
Il faut s'imaginer que là, typiquement, nous, quand on sort des documentaires sur la chaîne MyCode,
j'avais fait les calculs, mais en tant homme, c'est genre 5 mois de travail.
Alors qu'ils se répartissent entre...
Plusieurs personnes.
4 ou 7 personnes parfois.
Globalement, ça nous coûte entre 30 000 et 50 000 balles à peu près.
Donc il faut s'imaginer que l'enjeu de si ça marche,
déjà ça nous fait plaisir, ça fait plaisir à tout le monde,
mais on joue quand même un peu notre vie quoi.
On a survie de la paix derrière.
Clarément, on a envie que ça marche.
Ce n'est pas purement pour vous faire chier qu'on fait 12 versions du titre et plein de miniature, etc.
Et le deuxième truc à comprendre, c'est que le but n'est pas de faire comme avant mais en plus efficace.
Parce que ça pourrait être une impression légitime que tu peux avoir,
c'est-à-dire, ok, l'IA en fait, ça sert à remplacer les gens qui faisaient ce boulot avant.
La réalité, c'est que ce n'est pas du tout ce qui se passe et ce n'est pas du tout ce qu'on observe.
Voilà, globalement, on travaille avec un graphiste en intérim, ça n'a pas changé.
Pour le coup, ce qui a changé, c'est qu'il a une casquette un peu plus stratège de YouTube.
Mais nous, ce qui se passe, c'est qu'en fait, pour chaque vidéo, on va faire 25 miniature.
Et c'est ce que tu vois, ce qui se passe partout, c'est MrBeast, même en France, on voit ça sur plein de gros YouTubers.
C'est que, en gros, ça décupe le besoin et donc on se retrouve à en faire beaucoup, beaucoup plus.
Et globalement, à la chaîne de la boîte, on n'a jamais autant bossé avec des créatifs que maintenant.
Donc, le premier truc que j'ai voulu tenter il y a à peu près un an,
c'est d'essayer de créer une IA qui génère des miniatures de la chaîne underscore, mais de zéro en entier.
Juste pour voir ce qui était possible de faire.
Le point n'est pas, ça ressemblait à ça.
T'as une petite interface où tu mets l'intro de la vidéo.
Donc là, on peut dire...
Le texte.
Voilà, ouais, c'est ça.
Avec potentiellement des détails supplémentaires.
Donc là, on va dire...
Bonjour, on va parler des métaglasseuses.
Ce que tu dis dans l'intro de la vidéo, en fait.
Ouais, c'est ça.
Des méta des lunettes révolutionnaires.
Hop.
La première chose qu'on lui demande, c'est de générer des nouvelles idées.
Des idées de miniatures.
Donc il va arriver avec une liste d'idées.
Et comme souvent avec tout ce qui est modèle de langue, etc.
C'est qu'il est très nul pour en générer une, bonne,
mais il peut en générer 14 dont 2, 3 ne sont pas trop mal.
Donc là, il me fait des lunettes géantes qui flottent au-dessus de la ville.
Et donc je garde seulement celle que je veux générer.
Je fais Generate Thumbnails pour gagner du temps.
J'ai fait une génération déjà avec d'autres miniatures.
Et en l'occurrence, j'ai proposé le travail sur la vidéo avec l'infiltration d'entreprise,
losine, etc.
Et voici le résultat.
Et toutes ces miniatures-là ont été entièrement générées.
Donc il n'y a pas de retouches, il n'y a rien.
Et on peut regarder quelques-unes.
Donc déjà, on reconnaît un style quand même.
On trouve le bleu, la bainte-tipot.
Ah mais du coup.
Oh wow.
Il a changé des hausses.
Exactement ce qui est très drôle, c'est qu'on reconnaît parfois ça.
C'est vrai.
Ah mais attends parce que...
On fait des mélanges d'invités.
Mais c'est vachement bien.
C'est pas mal.
Là, le truc avec la hit cam.
Ouais, pour l'infiltration, c'est génial.
Elle se ressemble pas mal.
Il y a une personne à droite, un élément d'image à gauche et un texte au-dessus.
Ce qui est typiquement un layout classique de la chaîne.
Et donc là, en gros, il a fait 10 miniatures par version.
Donc c'est pour ça qu'il y en a pas mal qui se ressemblent entre elles, tu vois.
Mais ne fuis-ce que pour se donner des idées, c'est déjà génial.
Eh ben t'es tout compris.
La réalité, c'est que en le commençant, j'avais pas d'attente spécifique.
Je m'attendais pas déjà au début à avoir des résultats quand même bons comme ça.
Et en même temps, j'avais vite vu qu'il y avait un plateau en fait.
C'est-à-dire que là, c'était le mieux qui était possible de faire.
Peut-être que c'est possible d'aller encore gratter un peu de qualité, de consistance.
Mais là, en fait, quand tu vois, la réalité, c'est que c'est du AI junk quand même.
Tu vois que tu as des fautes quand tu fous.
Tu as ton texte, la gueule du gars ignoble.
Tu vois, dès que tu zooms, il n'y a plus rien qui marche.
Là aussi, le fait que ce soit impressionnant, c'est qu'on les voit en petits.
Et donc très naturellement, comme tu l'as deviné,
c'est devenu en fait un outil de brainstorming
où je l'utilisais pour donner 4d de miniatures
et avoir instantanément 80 versions différentes.
Et donc, comment on fait quelque chose comme ça ?
Et bien en fait, il y a plein d'astuces et de triches à plein endroit.
Il y a des artifices partout pour que ça marche et ça donne ce résultat en fait.
Quand tu veux créer une image qui ressemble à ta chaîne,
tu peux essayer d'aller sur le chat gpt, mid-journet, etc.
et de lui demander quelque chose avec un fonds bleu, un dégradé vers le noir
et un invité à droite et etc.
Tu peux essayer autant que tu veux.
Tu n'obtiendras jamais quelque chose qui proche comme ça.
Donc la première chose, c'est de faire du fine tuning.
Donc c'est le fait que d'aller vraiment modifier le modèle sous-jacent
et les poids pour obtenir le résultat que tu veux.
T'as donc deux usages principaux.
Le premier, c'est d'entraîner une identité,
donc de faire en sorte d'apprendre qu'elle est par exemple ma tête pour créer des miniatures.
Le deuxième usage, c'est le style.
C'est justement d'apprendre un style spécifique.
Ça peut être du réalisme, du pixel art,
ou une direction artistique comme un Northcore par exemple.
Donc là ça veut dire qu'est-ce que tu as donné toutes les anciennes miniatures d'un Northcore ?
Je lui ai donné des miniatures d'un Northcore.
Mais justement, bonne transition, combien il en faut ?
Et bien ça dépend du type d'entraînement que tu fais.
Tu peux faire des entraînements complets du modèle,
donc un fine tuning sur l'ensemble des poids du modèle,
ou tu peux faire ce qu'on appelle un l'aura.
Là, pour le coup, tu vas déjeler uniquement quelques couches.
Donc tu peux choisir combien de couches tu vas déjeler, justement,
entre 16, 32...
En gros, tu vas infléchir la trajectoire,
juste avant qu'il te fournisse une sortie en fait.
Et là, pour le coup, tu peux être sur un dataset beaucoup plus petit.
Je vais essayer les deux.
Justement, tu as des API qui te permettent de facilement entraîner des modèles comme flux,
soit en entier, soit avec du l'aura.
Et en fait, on a des très mauvais résultats sur l'entraînement en entier.
Donc là, c'est des entraînements avec seulement des dataset de 20 images.
Il y a un premier tricks à comprendre qui donne des résultats comme ça.
C'est que pour des bons résultats,
tu as plein de paramètres que tu peux modifier.
Donc un premier paramètre, c'est par exemple la vitesse d'entraînement, le learning rate.
Et là, il faut le voir comme un étudiant.
Tu peux soit bachoter, apprendre très vite,
mais avec des risques que ta mémoire soit fucked up.
Soit tu peux apprendre lentement.
Et là, tu as beaucoup moins de chances d'oublier et d'être à côté de la parquet.
Et il faut dire que c'est la même chose.
Tu as d'autres paramètres comme ça.
Donc je vous ai dit le nombre de layers que tu vas vouloir déjeler.
Et la conclusion qu'on a réalisé, c'est qu'il n'y a pas de recette magique du tout.
Et le seul moyen qu'on a trouvé pour avoir des bons résultats,
c'est de faire littéralement une matrice
et de tester tous les paramètres.
Un par un.
Jusqu'à avoir un modèle qui marche bien.
Donc à la fin, on est arrivé avec, je pense, 20-30 modèles différents.
Et après, comment tu sais lequel est le bon ?
Eh ben, tu test.
Sur chaque modèle, tu donnes 5 entrées différentes.
Tu filtes ce qui est bon, ce qui n'est pas bon.
Et vraiment, c'est assez long et pénible à faire.
Et c'est le seul moyen qu'on a trouvé en tout cas d'avoir un bon modèle qui donne des bons résultats.
La deuxième supercherie qui fait que ça donne des aussi bons résultats,
c'est au niveau des prompt.
C'est qu'en fait, j'ai fini par réaliser en ayant des très mauvais résultats pendant longtemps,
que le modèle n'était pas non plus assez intelligent
pour comprendre la structure sous-jacente des minatures.
Et le fait que, on a des minatures où il y a un gros texte sur le côté, une flèche et quelque chose,
où on a un invité, un texte et une boîte,
où on a un truc qui fait un peu schéma avec ce style-là.
Jusqu'à ce que je comprenne qu'il fallait le guider plus.
Et je trouve qu'il y a un truc hyper intéressant derrière à comprendre sur ces modèles-là
et que même si ils ne sont pas intelligents, ils sont très bons
pour trouver quel est le schéma qui correspond le mieux à tel ou tel situation.
Et donc, la pipeline qui permet de générer ces minatures,
elle a de décrites 5 ou 6 templates de prompt qu'elle peut aller utiliser et remplir.
Il y a de l'adaptation quand même.
Donc là, typiquement, quand elle fait un style comme ça de schéma, elle va s'adapter.
Donc elle va instruire le modèle pour qu'il modifie tel ou tel parti du prompt de manière intelligente.
Ce n'est pas non plus un formulaire, le truc.
Mais c'est ça qui a permis d'avoir des résultats aussi bons derrière.
Et il y a un autre exemple de ça qui est trop intéressant,
c'est les applis qui étaient capables de te générer des landing pages,
des sites web complets avec un prompt.
C'est dit, wow, c'est dingue.
Tu mets un prompt, ça te sort une page d'accueil d'un site web ultra léchier et parfait.
Et en fait, la réalité, c'est que derrière, t'avais une base de données,
de segments de sites, de slides, que le modèle pouvait utiliser,
donc changer l'ordre, etc.
Je trouve que c'est une super intuition pour comprendre comment utiliser au mieux les modèles maintenant
et comprendre qu'ils ne sont pas assez intelligents,
mais par contre, ils sont extrêmement bons pour adapter et répliquer,
répliquer, adapter, prendre, utiliser dans une boîte autique,
tu leur donnes des choses un peu prémachées et les adapter à la situation qui correspond.
Il faut aborder un peu tous les problèmes que tu veux résoudre avec les LLM de cette manière,
pour avoir des bons résultats.
Le truc pour le coup, qu'on s'est mis à vraiment utiliser tout le temps
et qui est un système automatique intégré à un workflow,
c'est la publication de nos podcasts.
Vous savez ce que vous souvenez, mais on a toujours été des très mauvais élèves sur les podcasts,
parce que quand on se concentre sur la chaîne YouTube, on a du mal à toucher et en même temps,
on n'est pas une grande équipe.
Et donc cet été, j'ai décidé de dire remédier,
en créant un système quasiment automatisé de publication de nos podcasts.
Donc l'idée, en fait, c'est qu'en podcast,
c'est simplement une version un petit peu coupée en enlevant ce qui n'est pas nécessaire,
typiquement le sponsor, des choses comme ça,
de la vidéo qui est sortie sur YouTube et que ça se passe plus ou moins en autopilote.
Donc quand on a une vidéo sur YouTube, elle est récupérée par le système automatiquement,
on fait les découpes qu'il faut, on les rajoute dans une base de données,
base de données qui ressemble à ça, sur Notion.
La DECNO des vidéos sortes, elles sont rajoutées.
Donc là, typiquement, notre dernière video microde, elle a été rajoutée toute seule.
Voilà, on choisit la date de publication du podcast, on met saved.
Et c'est tout. Terminé.
Le podcast est...
Il va être publié.
Et donc le seul travail qu'il y a eu, c'est qu'il y a eu un monteur en amont
qui a enlevé les parties que tu voulais pas avoir dans le podcast.
Non, le montage, ça fait tout seul.
Ah donc enlever le sponsor par exemple.
Ça se fait tout seul, d'accord.
Donc déjà, pour ceux qui sont amateurs de podcasts,
sachez que cette année, il va y en avoir beaucoup, beaucoup plus.
Donc dans tous les lundis, jeudi matin,
il y aura UnerScore et les documentaires qui seront sur les plateformes de podcasts.
Et la raison pour laquelle je suis à peu près sur un de mes engagés,
c'est qu'on n'a rien à faire pour que ça se produise.
Vous allez vraiment dire que t'as un amicort humain n'est pas fiable.
C'est vrai.
Il y a un truc de...
On est monotache, on va dire.
On est monotache.
En gros, on s'occupe d'un truc, mais si c'est en dehors, ça marche pas.
Sauf si c'est automatique.
Pour l'avoir fait pendant plus d'années, c'est chiant.
On n'a aucune valeur à jouer.
Le problème, c'est qu'en podcast, les miniatures, elles sont carrées.
Oui, elles ne sont pas horizontales.
Alors comment faire ?
Trois petits points.
Et bien, la solution, c'est super simple.
C'est de faire un système de DIN painting.
Donc globalement, notre but là, c'est de trouver un système
pour qu'à partir d'une miniature, on vienne combler ce qu'il y a en haut et en bas.
Et on a fait des tests assez simples, comme ça,
avec DIN painting, et ça donnait des mauvais résultats.
Et globalement, on commence à arriver à des bons trucs.
On va plus vraiment les mieux.
Et globalement, ça tenait à trouver le bon modèle et à trouver le bon système.
En fait, on prend la miniature, on la grandit, on la met derrière, on la floutte.
Ça sert de prendre des parts à DIN painting.
Donc le masque, il y a une opacité faible.
En bref, il y avait une petite mécanique à trouver.
Mais là, comme ça, il a un vent même, des reflets, tout ça.
Et donc ce que ça veut dire, c'est que quand on...
Une vidéo sort, il nous propose 4 versions.
À chaque fois, c'est comme ça qu'on règle le problème de la fiabilité.
C'est qu'on sait qu'il y en a toujours une sur 4 qui est bonne.
Il y a une miniature différente pour chaque podcast ?
Exactement, du coup.
Et ben, le résultat, du coup, il est live, c'est que...
Voilà, on a nos miniatures propres qui sont tirées de la...
Très bien.
...directement à la chaîne YouTube.
C'est cool ou quoi ?
Et donc c'est bon, c'est pour montrer qu'en gros, il y a différentes applications.
Dès qu'il y a peu de prise de décision, peu de créativité,
qui sont très adaptées pour des workflow automatiques entièrement.
Et d'autres qui le sont moins, qui peuvent servir de brainstorming
pour du travail plus créatif.
Si ce sujet vous a intéressé, vous allez forcément apprécier
cette histoire récente de comment LIA a créé une puce de calcul parfaite,
mais qui échappe complètement à la compréhension des humains.
C'était dans cette vidéo.