Pourquoi Banque Populaire est la première banque des entreprises ?
Je me posais des questions sur le partage de la valeur pour mes salariés.
Elodie, ma conseillère Banque Populaire, m'a proposé une solution d'épargne salariale sur mesure,
rapide à mettre en place et que je peux piloter en ligne.
C'était simple et surtout ça a fait des heureux.
Accompagner nos clients sur tous les territoires avec des solutions adaptées à leurs besoins,
c'est ça, être la première banque des entreprises, Banque Populaire, la réussite est en voulue.
Étude Quantar PMEP, mid-2023, Quatorze Banques Populaires, Première Banque des PM.
On va effectivement avoir un sujet diagénératif, mais qui va vous changer un peu d'habitude.
Puisqu'on ne parle pas de texte, on ne parle même pas d'image, on va en parler fort sur lui,
mais on parle bien de 3D, et d'environnement 3D.
Et ça, c'est quand même assez nouveau.
Et là, contrairement aux sortes de plateaux qu'on est tout doucement en train de devoir arriver
dans les autres domaines, pour le coup, en 3D, il y a vraiment tout à faire.
Je dis en plateaux, mais avec des énormes guillemets, parce que globalement, ça bouge quand même énormément.
Mais vraiment, en 3D, on est à une étape où ça est encore assez marrant,
parce qu'on ne sait pas du tout la vitesse où ça va pouvoir aller.
On est au balbut ciment.
Il y a une petite vibe 2022 où on découvre les premiers LLM et où on découvre Stable Diffusion, etc.
C'est un peu ça, mais dans la 3D.
Donc c'est sans doute le moment le plus excitant pour les chercheurs sur le domaine, les décopeurs.
C'est probable.
En gros, il y a tout à faire.
On n'est pas dans de l'affinage, de l'amélioration du petit détail qui est un peu plus le cas,
On va voir ça, mais la différence entre mid-journée V5 ou V6,
les différences, elles sont toujours sympa, mais ça commence à être un peu marginal.
Alors qu'au tout début, je me souviens des débuts de mid-journée, David, etc.
Tous les deux mois, c'était incroyable.
On passait de trucs vraiment dégueulasses à plus en plus de choses qui se rapportent.
Maintenant on est blasé.
Je vais vous déblaser aujourd'hui,
puisque on va rajouter une difficulté,
puisque on va rajouter une dimension littéralement.
C'est quand même pas mal.
La théorie des cordes, pardon.
On reste à la 3 aujourd'hui.
Je vous le disais,
aujourd'hui on prend un peu tous pour acquis la génération d'images,
que ce soit mid-journée, d'ali, etc.
C'est devenu évident que on peut générer des images en deux dimensions ultra qualitatives,
photo réaliste, que ce soit de la photo, des illustrations, des petits objets.
On peut absolument tout faire,
mais il y a un truc qui n'est pas possible depuis encore plusieurs années,
où on voit les premiers balbutiements, c'est de la génération 3D.
Alors à quoi ça peut servir ?
On peut dire de pouvoir générer des objets, des environnements 3D.
Et bien en fait, il ne faut pas beaucoup d'imagination
pour se rendre compte que ça pourrait être une dinguerie.
Imaginez par exemple des jeux vidéo
où votre monde, votre univers se génère sous vos yeux
en fonction de votre aventure, en fonction des décisions que vous prenez.
Tu imagines un Open World, ton prochain Zelda,
sauf que tu es le premier à avoir foulé telle ou telle zone de la carte.
Et ce ne serait pas à la Minecraft des trucs autogénéres,
mais des trucs vraiment hyper uniques,
des visages de personnages qui seraient uniques à ton expérience.
Dans le jeu vidéo, évidemment les applications sont évidentes,
mais même au-delà de ça, on peut s'imaginer beaucoup beaucoup de...
Et peut-être dans la VR et la R, dans la formatique spatiale ?
Exactement.
Avec le nouvel Apple Vision Pro qu'on vient de recevoir, etc.,
c'est évident que pouvoir générer des objets, des visuels, etc.,
à partir de rien, à partir d'une idée, d'un texte,
ça risque d'être ouf.
Imagine ton Apple Vision Pro et là tu décris ton prochain appart, tu vois ?
Et hop, tu dis, tiens, j'aimerais un fauteuil un peu plus large,
s'il te plaît, en cuir, je le mets là, bam, tu fais ta découp d'intérieur,
à la voix, à partir de rien.
C'est évident que ce serait fou d'avoir ça.
Mais en fait, on y est encore très loin.
Et ce n'est pas forcément intuitif, parce qu'on pourrait dire dans mes...
Moi je connais les trucs de génération d'IA,
en ce moment ça va, toutes bersingues, en texte, en image, en 2D, en son...
Je vois sur Twitter qu'il y a des trucs, des nouveaux modèles qui sortent tout le temps
et donc je m'attends à ce que ce soit la même chose en 3D.
Et ben en fait, pas du tout.
Vraiment, il faut se rendre compte que la 3D, c'est une sorte de cas à part.
Et pourquoi c'est plus dur comme ça, la 3D ?
Alors, en fait, la raison pour laquelle la 3D, c'est hyper dur d'en faire des modèles de génération convaincants,
c'est un rapport avec la quantité de données.
Petit flashback, il y a deux ans à peu près,
pour rappel, on s'imaginait même pas encore qu'on allait pouvoir générer des visages en 2D.
Je sais pas si vous vous souvenez, mais en 2022, c'est la première version de Sable Diffusion ou de Mid-Journet, etc.
C'était pourri, on peut voir un petit visuel avec justement l'amélioration de la qualité de Mid-Journet.
Donc tu vois, la première version, tu as un John Wick, il fait un peu peur quand même.
Et évidemment, c'est un peu caché, mais on voit la version la V6 ou la V5.
Et là, on arrive à du photorealisme, ça pourrait être une affiche officielle que ça n'est pas mal.
Mais c'est vrai qu'au début, on faisait pas du main, en fait.
On va faire des paysages, c'est très bien, c'est incroyable.
Donc, juste un petit rappel pour qu'on se remette bien les idées en place.
Il y a deux ans, on n'imaginait pas générer un visage en 2D.
Alors, qu'est-ce qui a permis cette évolution aussi fulgurante ?
En fait, c'est la masse de données de qualité.
En fait, il faudrait le dire qu'en 2D, juste en images, en photos et en visuels graphiques,
il y a une masse de données qui existent actuellement et qui a été construite pendant toutes les années d'Internet,
sur une trentaine d'années, à partir des réseaux sociaux, des banques d'image, des sites de graphistes,
genre artlistes, tout les trucs comme ça.
En fait, tu te rends compte que la matière de base, tout était prêt pour la génération 2D.
Le deuxième truc, c'est que les modèles récents, ce qu'on est quasiment sûr de savoir,
c'est qu'ils se sont entraînés sur des films et qu'ils ont probablement pris des gros films au box-office,
des Avengers, des trucs comme ça, et ils ont fait pause toutes les secondes, par exemple,
avec des captures d'écran pour générer des milliers et des milliers de visuels
en très haute qualité en 4K pour rien.
Mais pour ça que c'est si joli, parce que la réalité n'est pas si joli.
Mais les films.
Exactement. Et d'ailleurs, quand tu l'es demande de générer des scènes de Avengers,
c'est un peu louche à quel point c'est proche du matériel original.
Donc, globalement, personne n'est dup et on sait que toute cette masse de données
a permis l'amélioration en qualité fulgurante de ces dernières années.
Or, si tu compares avec la 3D, c'est le néant.
C'est-à-dire que en 3D, à part quelques banques genre Sketchfab, par exemple,
ou alors il y a Epic Games qui, pour Unreal, a créé un truc qui s'appelle Reality Scan,
qui est un genre de pack d'objets 3D qui provient du réel et de la nature,
qui est super calie et hyper utile.
On l'utilise, non ?
On l'a déjà utilisé.
En fait, il faut réaliser qu'en termes de volume, de taille, de dataset,
c'est rien, c'est une goutte d'eau à côté de tout ce qui existe en 2D.
Vraiment, c'est absolument pas suffisant pour faire quoi que ce soit.
Donc, quand tu parles de films, vous pourrez se dire qu'il y a des films en 3D,
mais c'est une toute petite minorité par rapport aux films en 2D qu'on peut trouver.
Et surtout, même les films en 3D, ce qu'ils vont avoir, c'est une 3D de parallax,
où en fait, ils sont capables de te générer la 3D depuis un point de vue.
C'est-à-dire que toi, à un endroit assez sur ta chaise,
tu vois de la 3D parce qu'on te projette bien les deux images correspondant à tes deux yeux.
Mais si tu bouges, l'information n'existe pas pour toute la circonférence
et tous les autres points de vue qu'il pourrait y avoir sur cette scène 3D.
Donc, même ça, ce serait encore peut-être pas inutile, mais que partielle comme information.
Donc, les solutions, ce serait quoi ?
L'ensemble de leurs assets 3D, de manière gratuite open source pour le bien de la communauté.
Autre solution, Michael.
L'autre solution, c'est de trouver un moyen astucieux de contourner le problème.
Et c'est exactement ce que des chercheurs ont fait.
En fait, ce qu'il faut faire, c'est laisser tomber le texte au 3D.
C'est impossible, ou alors pas avant, très, très, très longtemps.
Et donc, il faut trouver un hack.
Et le hack, c'est de tirer profit des bons deux géants qui ont été faits pour le coup en texte tout 2D.
Et ensuite, d'essayer de faire du 2D tout 3D.
Donc, en fait, on découpe...
Ce que les chercheurs tentent de faire depuis récemment,
c'est de découper le problème en texte tout 2D.
Donc, on prend mid-journée ou des modèles équivalents.
Et ensuite, d'entraîner des modèles et des systèmes qui sont plutôt capables
de transformer ton image mid-journée en scène ou en objet 3D.
Bon, c'est facile à faire, mais du coup, je pose la question.
Comment on fait pour convertir une image 2D en 3D ?
Oui, ça paraît pas évident comme problème.
Non, pas si simple.
Et là encore, si on vient sur l'idée de film,
peut-être que si on a non pas seulement une image, mais une scène qui bouge un peu,
ça peut aider un petit peu ?
Eh bien justement, en gros, la techno qui existe depuis
pour le coup bien plus longtemps que l'IA et que c'est une nouvelle technique récente,
c'est ce qu'on appelle de la photogrammétrie.
Et donc, en fait, pour modéliser un environnement 3D,
on prend une multitude d'images 2D.
Effectivement, tu pourrais aussi prendre une vidéo qui bouge,
mais la plupart du temps, ce qu'on fait, c'est qu'on prend
énormément de photos avec des angles différents pour avoir la meilleure résolution.
Et on essaie de les assembler au mieux pour créer un objet ou une scène 3D.
Et donc, effectivement, ça peut soit passer par avoir, genre, 50 appareils photos
qui prennent simultanément des photos à la chaîne,
ou une vidéo, soit de manière plus réaliste.
T'as ton téléphone, par exemple, t'as une appli dessus,
et tu vas tourner autour de ton sujet,
et après un temps de calcul, on va te générer un objet 3D.
Je me souviens avoir fait ça il y a 10 ans.
Donc, j'avais une appli qui s'appelait Autodesk,
Autodesk 2, 3D, je crois.
Et ça permettait, déjà à l'époque, d'une simple vidéo
de te générer un objet 3D de ta personne.
Pourquoi on pouvait faire ça il y a 10 ans avec un téléphone, mais on oublie vite.
Et en fait, c'est assez similaire pour comparer avec la parallax
et ce que fait l'œil humain, ou à partir de points de vue différents.
T'as une compréhension 3D de ton environnement,
alors que t'es arrêtée, elle chope des images 2D.
Donc, c'est le même système. On prend plusieurs points de vue
qu'on assemble pour essayer de projeter un objet ou un environnement 3D.
Donc quelque part, le cerveau arrive à le faire avec seulement 2 points de vue,
parce qu'on a 2 yeux, et là, le logiciel, on lui donne plus que 2 points de vue,
il lui donne un petit avantage.
On lui donne beaucoup plus de points de vue, et du coup, le but c'est d'avoir,
non pas seulement une vision 3D avec de la profondeur,
mais vraiment l'ensemble de la pièce.
Donc la fin, t'as vraiment un objet en format 3D
que tu peux importer dans ton logiciel de 3D, tu peux tourner autour, etc.
Mais, en fait, il fallait déjà énormément donner,
donc vraiment beaucoup, beaucoup de photos, et c'était toujours un peu craquin.
Je me souviens, il y avait plein d'artefacts,
il y avait beaucoup de temps de clean-up,
où tu devais aller nettoyer ton image, enlever tous les petits artefacts et les petits bugs.
C'est du travail à la main.
Exactement, et c'est ça qui explique, notamment,
que les bases de données qu'il y a sur Internet,
elles contiennent beaucoup de ces modèles un peu craquats.
Et donc, ça en fait des très mauvaises bases de données
pour entraîner des modèles suivants.
Donc il y a une sorte de... on va dire que le fruit était pourri depuis longtemps.
Et donc, il faut trouver une autre solution,
que la photogrammétrie, qui est clairement obsolète.
Et cette nouvelle solution, elle est arrivée en 2020.
C'est une petite révolution qui s'appelle nerf,
comme le je vois finalement.
Et ça veut dire neural radiance field,
donc champ de rayonnement neurono.
Et c'est ce qu'utilise pour vous montrer Google dans immersive view.
C'est un mode dans Google Maps qui permet d'avoir
une sorte de vue proche de ce qui fait 3D, entre guillemets,
où tu peux comme ça te balader dans une ville
et te bouger de monument en monument.
C'est une technologie qui s'appelle nerf, qui permet ça.
Et là, pour le coup, on introduit du deep learning,
qui permet justement de construire cette représentation 3D
à partir de plusieurs images 2D.
Donc, fini les 75 appareils photos
et les recoupements d'images avec des algos à l'ancienne.
Là, c'est un modèle de deep learning qui permet de faire ça.
À tel point, évidemment, les résultats sont assez bluffants.
Là, si tu vois la différence entre d'un côté...
Là, c'est que nerf.
D'un côté à gauche, c'est ce que permet de la photogrammétrie à l'ancienne.
Et là, à droite...
C'est nerf.
T'as un nerf.
C'est impressionnant.
C'est fou.
Et voilà, la différence.
Dans les faits, surtout sur cette première version,
quand tu zooms, tu vas te rendre compte qu'il y a potentiellement des petits soucis,
mais globalement, c'est quand même très bluffant.
Et c'est fou la différence qu'il y a,
parce que les conditions de tournage sont très bonnes.
C'est un drone qui tourne.
Donc, c'est normalement parfait pour la photogrammétrie.
Alors que...
Enfin, en plus, c'est vraiment les conditions parfaites,
mais nerf est quand même vachement plus puissant.
C'est impressionnant.
C'est ça.
Et en fait, alors...
Moi, j'avoue, j'ai un peu galéré.
C'est pas aussi...
Je n'ai pas trouvé ça aussi simple à comprendre que les modèles de diffusion.
Mais en fait, il faut réaliser que ça ne génère pas un modèle 3D en tant que tel.
C'est-à-dire que c'est pas juste, tu lui donnes des images,
et bien, ça te point un modèle 3D.
Ce qui se passe, c'est que ça entraîne un modèle nerf
qui, à partir de plusieurs points de vue,
entraîne un réseau de neurones
qui est capable de prédire ensuite des nouveaux points de vue.
Donc, en gros, ton modèle,
en input, tu lui donnes un des nouvelles coordonnées de caméras,
et lui, il va pouvoir, sur chaque rayon de la caméra,
sur chaque pixel,
il va pouvoir, à partir des valeurs de pixels
et des autres positions de caméras réelles,
il va pouvoir généraliser et guesse à ce nouvel endroit de caméra.
Je pense que c'est telle valeur de pixels et telle profondeur entre eux.
Parce que, quelque part, à la fin,
l'image, on va quand même la regarder sur un écran 2D.
Donc, quand il y a un modèle 3D,
ça reste qu'une étape intermédiaire,
d'avoir une représentation 3D,
et à la fin, ça va être reprojeté sur un écran 2D,
et donc là, on zappe en quelque sorte cette représentation intermédiaire.
Exactement.
C'est exactement ça.
Et ce qui fait que tu n'obtiens pas,
avec un nerf, tu n'obtiens pas de modèle 3D,
tu obtien juste la projection à un nouveau point.
Ok.
Et donc, après, en fait,
à chaque fois que tu bouges ta caméra, lui derrière,
il compute une nouvelle image en utilisant le modèle nerf.
Moi, j'ai eu un peu de mal à comprendre, j'avoue.
Là, on voit une ilue à gauche,
c'est ce qu'on lui a donné en entrée,
donc c'est vraiment des photos avec 2-3 points de vue.
Et après, ce qu'on voit en grand écran,
c'est qu'il tourne autour.
C'est ça, exactement.
Et donc, c'est toutes ces nouvelles positions.
Et c'est incroyable.
Il les imagine en ayant entraîné son modèle nerf
sur des images préconçues.
Ça n'empêche...
Alors, ça, c'est un truc que j'ai regardé,
qui m'intéressait, c'est que c'est pas pour ça
que c'est pas possible, en deuxième temps,
de pouvoir générer un modèle 3D
ou un environnement 3D à partir de ton nerf.
C'est-à-dire que tu as des technos,
qui sont pour le coup fait en deuxième temps,
qui te permettent de convertir ce nuage de points
en des polygones, par exemple.
Et donc, ça fait que les applications dans le jeu vidéo,
par exemple, où tu veux vraiment un objet 3D
ou un vrai environnement qui serait un asset
ce que tu peux draguer une drop dans ton logiciel,
c'est pas impossible qu'on y arrive en haut.
Mais c'est vraiment des breaks distinctes.
Bref, donc tout le monde s'est jeté sur cette nouvelle techno
et l'a amélioré.
Il y a eu notamment Oznerf,
donc à partir d'une simple vidéo,
le modèle est capable de bouger la caméra
sous n'importe quel angle.
Donc vous allez voir, le résultat, c'est assez bluffant.
Globalement, toutes les...
que je vous ai trouvées,
elles ont un côté très satisfaisant.
Donc là, par exemple,
l'input de base, c'est le chercheur qui a filmé
son fils en train de marcher dans un champ.
Et il est capable de jouer la vidéo.
Ah ouais.
Et à tout moment de déplacer la caméra.
Là, il fait un 360 au taux de régulièrement,
alors que ça n'a pas du tout été filmé.
Exactement.
Lui, ce qu'il a filmé, c'est juste des mouvements normales
mais qui sont généralisés
et qui te donnent une frie caméra après
pour tout balader à l'intérieur.
Ah du coup, j'ai envie de savoir ce que ça va donner.
Donc là, il filme en mode normal, quoi.
Par contre, il a des mouvements un peu bizarres.
Très saccadés.
C'est peut-être parce qu'il y a une imitation.
Je pense que c'est un truc...
C'est une dorsique toque.
Salut !
Si vous appréciez UnorScore, vous pouvez nous aider de ouf !
En mettant 5 étoiles sur Apple Podcast,
en mettant une idée d'invité que vous aimeriez qu'on reçoive,
ça permet de faire remonter UnorScore.
Voilà.
Telle une fusée.
Ok, donc là, la vidéo commence normalement.
Mais à peu près, à n'importe quel moment,
c'est comme si tu pouvais faire pause...
Ah ouais, c'est incroyable.
Et te balader dans la scène.
C'est trop puissant.
Ah ouais, ça c'est impressionnant.
C'est impressionnant de...
C'est vachement net quand même.
Et c'est une des améliorations qu'ils ont faits,
c'est que sur la qualité de l'humain,
sur les bâtiments, etc., c'est bien,
mais si tu regardes le détourage
et la qualité de la représentation de l'humain...
C'est faux parce qu'il y a des images
qui n'ont jamais été filmées,
qui ne existent pas, entre guillemets.
Exactement, ouais.
C'est vraiment brainfuck.
Franchement, on pourrait régaler ça à toute la fois.
Oh là !
Une autre démo très sympa que j'ai trouvé,
ça s'appelle l'ERF.
Et donc c'est une combinaison de nerfs,
mais avec un modèle de langage
qui est capable de non seulement
te créer la scène en 3D,
mais j'aime pas dire ça
parce que techniquement,
ça ne crée pas la scène 3D, en fait.
De créer des objets en 3D.
Donc il combine le fait de te créer
une représentation
plus ridimensionnelle des images
et la compréhension de ce qui s'y trouve.
Donc par exemple,
tu vas taper plantes
et il est capable de te faire un zoom hyper smooth
et de te générer plein de nouvelles images
tout autour de l'objet.
Ah super !
Tu contrôles la caméra avec du test.
Ouais, c'est ça.
Et donc là, les applications,
je sais pas moi pour des musées
ou pour même des jeux,
ou des trucs comme ça,
c'est pareil, assez évident.
Juste pour montrer que
les techno de reconnaissance d'objets
dans les images
sont en général généralisables
à ce genre de modèle.
Le dernier, ça n'a pas de nom.
C'est une équipe au Japon
qui a créé un plugin pour Unreal Engine,
qui a un moteur de jeu bien connu,
et qui permet de faire des rendus de nerf
nativement, directement,
dans ton environnement Unreal.
Donc très concrètement,
sans plus attendre,
vous allez découvrir comment vous pouvez,
par exemple,
importer votre jardin dans un jeu vidéo.
Ah mais oui !
Donc là, tu prends quelques images
ou une vidéo de ton jardin
et bam, téléporter dans un moteur de jeu
et tu peux te balader et jouer dedans.
Bon alors là, typiquement...
Et GTA, ça va changer !
Mais c'est sûr, franchement,
le temps qu'il devait passer
à modéliser en très haute qualité des vives, etc.
Ah, tu fais Paris en...
Tu gardes du temps, franchement.
Alors, le petit Ique ici,
c'est ce dont je vous parlais,
c'est que là, vous avez bien vu,
les collisions, elles ne sont pas correctes,
c'est-à-dire que...
Il passait à travers, hein.
Exactement, il passait à travers les objets, etc.
C'est juste parce qu'il n'y a pas eu
cette étape de nerf tout 3D.
C'est pas encore des vrais objets 3D
dont Unreal connaîtraient vraiment
les dimensions et l'emplacement
des polygones et pourraient
appliquer son système de collision.
Il manque une étape.
Mais c'est déjà très cool, franchement.
J'ai envie de jouer dans mon jardin.
Je suis en vue d'avoir un jardin.
Première étape,
nous sommes affariés.
Donc, on avance parce que là,
ce qu'on expliquait, c'est que c'est
les bricks dont on a besoin, c'est
un bon modèle de texte-to-image
et ensuite, un très bon modèle
qui permet de faire de la 2D tout 3D.
Vous allez voir, ça va être très utile
dans la suite
pour pouvoir avoir le grâle,
à savoir un système
ou à la voix, on pourrait avoir des mondes
qui apparaissent, etc.
Juste avant qu'on y arrive,
j'ai envie de vous montrer
pour le plaisir des petites démonstrations
d'une nerf, mais appliquées
à d'autres domaines, notamment
dans la vidéo.
Par exemple,
si on combine un nerf
avec les nouvelles technotypes
Stable Tiffusion, etc.
qui permettent de faire
des remplacements de textures
et des choses comme ça, ça donne ça.
Si vous regardez ce Bouddha,
la version, le nerf original,
par exemple, est en bas,
mais quand on le combine
avec d'autres technos,
ça peut donner ce qu'il y a juste au-dessus.
Ou vous avez un Bouddha doré.
Avec derrière tout un ciel
qui a été retravaillé.
Je ne sais pas si vous voyez,
mais on voit quand même que
ça utilise derrière un Stable Tiffusion
parce que parfois, si tu regardes
l'arrière de sa tête,
tu peux voir un visage fantôme
qui apparaît.
Attention, là !
Je l'ai vu !
Il faut avoir l'œil.
Exactement.
Il faut avoir l'œil.
Il faut avoir des mains
ou des trucs comme ça
qui peuvent apparaître.
Mais c'est très très cool.
Autre exemple, bien sympa,
c'est pour générer
un effet bien connu des cinéastes.
C'est un effet très hype
où en fait,
tu fais un zoom,
donc tu rapproches ta caméra
et en même temps,
tu tournes la bague de ton objectif.
Et ça fait un...
Ça s'appelle un super zoom,
j'oublie comme un...
C'est un traveling compensé.
Traveling compensé,
merci.
Le terme français.
Sauf que,
dans la vraie vie,
ça demande...
C'est super chiant, hein !
Oui, ça c'est super chiant.
Ça demande un rail du traveling
et d'être super synchro.
Technique.
Beaucoup de matériel, etc.
Ça se fait dans les films.
Alors que celui-ci,
qui est un peu exagéré,
c'est pour la démonstration.
Voilà, il est bien vénère.
Il est bien vénère.
Mais ça peut être très joli.
Ça peut être beaucoup plus
sans effet de décalage, etc.
Mais là,
vous voyez à quel point c'est parfait.
C'est à dire qu'il n'y a aucun tremblement.
On a vraiment l'impression
que le traveling est fait par un robot.
Plus on a bien l'effet
de profondeur distordu, etc.
Et bien, en fait,
cette vidéo a été faite avec un iPhone.
Voilà, c'est juste quelqu'un qui a demandé
à sa cobaye de ne pas bouger dans la rue.
Qui a fait une vidéo,
on va vous montrer le processus de création.
C'est à la fin d'anormalement.
Qui a pris son iPhone et...
Voilà, qui s'est...
Donc elle bouge vraiment par contre,
ça c'est impressionnant.
Et le mouvement qui est fait avec l'iPhone,
on va le voir juste après,
c'est que...
ou peut-être qu'il faut descendre un peu,
pardon.
En fait, le mouvement qui est fait avec l'iPhone,
c'est pas d'aller tout droit,
mais c'est de tourner un peu autour,
comme ça, dans une sorte de spirale,
pour prendre de l'information.
Justement, c'est dans le but du nerf,
c'est de prendre vraiment plusieurs points de vue.
Et tu tournes, tu tournes, tu tournes.
Ah oui, ok.
Et en fait, à la fin,
tu fournis ça à un nerf,
plus précisément à un outil
qui s'appelle PikaLabs,
et qui permet de...
à vous et à nous de le faire facilement,
avec son iPhone.
Le résultat est assez bleu, quand même.
Ouais, tu sais...
C'est très calme.
Des mots suivants, c'est une pub Macdo,
qui était fait encore avec nerf.
Je vous ai dit, tout le monde se remonte,
tout le monde se rachetait.
Et c'est une pub d'hémagdo,
où tu rentres dans un restaurant,
et il s'amuse du coup avec la caméra,
avec des effets qui sont probablement impossibles,
à mon avis, à faire tel quel.
Sauf peut-être avec des effets spéciaux,
mais ça, par exemple...
Il repasse dans la...
C'est juste impossible.
Il est allé dans le paquet.
Ah, c'est stylé !
Ouais, ils se sont bien amusés.
Et donc voilà, même Macdo fait des pubs comme ça.
Et pour ceux qui connaissent Corridor Digital,
qui est une chaîne YouTube américaine,
où ils s'amusent beaucoup avec des effets spéciaux,
qui sont toujours assez affûtés sur les dernières techno,
ils ont aussi fait une démonstration avec un nerf,
mais avec aussi des vrais nerfs.
C'est un combo,
puisque tout simplement, ils ont trouvé un moyen...
que j'avais jamais vu, honnêtement.
J'ai jamais vu ça dans aucun film.
Un moyen de filmer la trajectoire d'une balle de nerf.
Je sais pas si on va le voir plus tard.
Mais c'est un sort d'effets slow motion combinés à...
Il filme avec son iPhone ?
Ouais.
Ou son téléphone ?
Voilà.
Voilà.
Juste ça, en fait.
En fait, pour réaliser, si tu devais faire ça
avec du matériel traditionnel,
un enfer en ce modèle-là,
le seul moyen, mon avis, c'est des...
Des drones ?
Des bras.
Un son, un drone, ouais.
Avec un très bon pilote de drones.
Ouais, avec un drone FPV.
FPV champion du monde.
Très, très chaud.
Ou alors des bras, mais pareil,
tu peux même pas tout faire en été.
Donc très, très impressionnant.
Et ce que je vous disais, c'est que vous dès maintenant,
vous pouvez déjà utiliser ça en allant sur Luma AI, par exemple.
Et qui vous permet, comme ça,
de faire des montages, des créations de...
Des générations de nerfs,
et de vous amuser tout simplement.
Et c'est gratuit, je sais pas, t'avais essayé Mathieu ?
Ah non, ça, je me suis trompé.
Nerned.
Tu es confondu.
Si, si, c'est aussi Luma qui...
Ouais, mais ça, c'est pour plus tard, là.
Spoyle !
Spoyle !
Ça, c'est pour plus tard.
C'est un deuxième onglet dans Luma AI,
où tu peux...
C'est pas gratuit.
Je crois pas.
Je crois que c'est payant.
Démogratuite.
J'ai oublié, mais peut-être une démogratuite.
OK.
Mais non, ça, j'ai pas pu le tester.
Bon, bref.
En tout cas, vous pouvez vous amuser avec.
Euh...
Pardon, je me suis perdu.
Donc, ce que je vous explique tout à l'heure,
c'est que, a priori, là, on est pas mal.
Nous avons, on avance.
Dans les briques,
exactement, on a besoin.
Mais vous avez peut-être remarqué un truc,
depuis tout à l'heure, c'est que,
pour l'instant, tout ça, ça n'est pas de la génération.
C'est juste, on prend des images du réel,
et on obtient des points de vue supplémentaires, etc.
Pour l'instant,
on n'a pas encore de générations pure d'IA, d'environnement.
On n'est pas...
On a juste réussi à passer d'une photo et d'une vidéo
d'un truc existant, à le faire en 3D.
Mais là, on n'a pas fait juste un prompt.
C'est ça.
Et pourtant, pour le plaisir qu'on a,
on a les deux briques, donc on a de la génération texte tout 2D,
on a un système de 2D tout 3D.
Mais en fait, il y a un problème.
Parce que ce qui fait que les scènes nerfs
ont des rendus aussi réalistes,
c'est qu'on leur fournit plusieurs points de vue.
Vous avez vu, à chaque fois,
on donne une vidéo en input.
Alors c'est moins de bandeur que de la photogramma et de T-Ri, etc.
Mais c'est la base du truc.
C'est ça qui donne ce rendu ultra-réaliste.
Or, nous, si vous réfléchissez à notre problème,
on n'en a qu'un seul.
Midjournée ne donne jamais qu'un seul point de vue
sur ton objet 3D
ou sur ton environnement de ton prochain jeu vidéo.
C'est d'ailleurs un peu embêtant,
même quand on fait de la 2D,
qu'on veut changer quelque chose sur une image,
on n'y arrive pas, alors il faut pas se faire de tout ça.
La solution pour l'église problème,
c'est Google qui l'a trouvé en 2022.
Donc ce n'est pas si dur en fait.
C'est notamment Dream Fusion,
qui était leur premier modèle.
Il y a aussi OpenAI qui a sorti Points E.
Depuis, vous vous doutez que ça a été encore amélioré.
Mais ils ont trouvé une solution à ce problème
pour, à partir d'un seul point de vue,
de quand même tirer parti du nerf
pour générer des représentations 3D hyper qualitatives.
Alors comment ça marche ?
Si j'ai bien compris leur méthode,
parce que honnêtement,
le papier n'est pas si évident.
Mais l'idée, c'est d'utiliser,
en plus de l'image d'origine,
d'utiliser le prompt,
donc une description de texte,
de l'objet qu'on veut obtenir à la fin.
Donc si on fait les étapes,
j'aimerais un chio en 3D.
D'abord, je l'ai mis à mid-journée
ou à stable division un chio en 3D.
En 2D.
Un image de chio.
Exactement, un image de chio tout simplement.
Et après, avec ça,
et mon prompt de texte,
je vais entraîner un autre modèle.
Donc en gros,
je vais utiliser un modèle de diffusion
pour vérifier que mon nerf
se rapproche du but.
En termes précis,
on dit que la fonction de perte,
donc la loss function,
qui est utilisée,
c'est celle du modèle de diffusion.
Donc en gros,
mon nerf, ce qu'il fait,
c'est qu'il essaye de guess
des points de vue alternatifs.
Donc là, je lui donne en input
mon chio de face.
Il va essayer de guess
des vues de côté.
Et on va vérifier
si ça correspond
au prompt.
En gros, à quel point
cette génération de côté
qui va au début être disforme et dégueulasse,
à quel point
ça ressemble à un chio de côté.
Comment, c'est quoi la mesure
pour dire à quel point ça ressemble ?
Et bien, ça c'est le secret
des modèles de diffusion.
Actuellement, quand tu utilises
un modèle type stable diffusion,
ce que lui il fait, c'est qu'il génère
du bruit, une image complètement aléatoire,
et il était entraîné
pour de plus en plus se rapprocher
d'un chio à la fin.
Et à chaque intération,
il se rapproche
de plus en plus de la description
de ton prompt.
Et bien, tout le génie de Google,
c'était de dire,
mais en fait, du coup, on va utiliser ça,
on va utiliser ces modèles-là
qui marchent super bien, dont on sait
qu'ils sont capables de faire converger
une image vers un prompt.
On va les utiliser pour vérifier
que les points de vue
du nerf
tendent vers
une représentation
de décorrect.
Tu as ce que je veux dire ?
C'est incroyable.
J'aime bien peut-être
accepter, j'espère
de ne pas avoir
trop écorché le truc.
Mais quand tu réfléchis, c'est assez génial.
C'est vraiment utiliser la brique
texte ou 2D.
On sait faire converger des images
super bien
pour faire tendre
du bruit vers un chioat
à partir d'un prompt. On utilise
cette connaissance-là pour entraîner un nerf.
Puisque à chaque intération, on est capable
de dire si les points de vue alternatifs
et de côté correspondent bien
au prompt.
Tu vois ou pas ?
Du coup, il y a de la 2D
sur plein de points de vue différents.
Et à la fin,
en utilisant le modèle de diffusion
pour voir si ça correspond au prompt qu'on a eu vie,
on arrive à voir si tout ça est cohérent entre les.
C'est ça, mais du coup
à chaque intération.
C'est la fonction de perte dans le modèle
de langage qui permet de ditter.
Si vous vous avez
entraîné des réseaux de merau, vous voyez très bien.
C'est ça qui permet
de modifier les poids
du nerf à chaque intération
pour le faire tendre vers
quelque chose qui est capable de générer
à la fois un truc qui correspond
au point de vue de face,
mais aussi qui
restent cohérents vis-à-vis du prompt
qui était un chiot.
Moi, ce que j'ai compris,
c'est qu'on dit à un modèle de diffusion
« Fais-moi un chiot ». Après, on dit à un nerf
« Fais-moi les représentations sur les différents côtés ».
Et il y a un autre modèle de diffusion
qui est aussi capable de représenter un chiot.
Tu dis « Est-ce que ça ressemble à un chiot ? »
Et du coup, il va pouvoir te répondre
oui ou non globalement, parce que si ça ressemble pas du tout.
Donc, ça permet d'avoir des...
Ça te permet de t'en servir pour améliorer ton nerf
et modifier les poids, etc.
C'est super malin !
C'est hyper malin, frèrement. Quand tu capes le truc,
c'est génial. C'est littéralement transposer
les connaissances d'od des verres de la 3D.
Et vous vous doutez bien
qu'après les premiers essais de Google
qui sont techniquement
intéressants, mais en fait, dans les résultats,
vous allez voir, les objets,
ils sont pas dingues,
c'est-à-dire que tu vois
des petits ratons laveurs, des petits renards.
C'est sympa, maintenant c'est un bon début.
Mais c'est pas encore
complètement fou, oui. Et bien, depuis,
vous vous doutez, c'était en 2022, à savoir
l'antiquité, finalement.
Et depuis, ça a été
encore énormément amélioré,
notamment il y a Luma Geni
que vous avez vu légèrement tout à l'heure,
mais qui vous permet de
générer d'autres objets super calis.
Et là vous, vous voyez
qu'on a encore franchi un petit cap et ça commence
à vraiment se rapprocher
d'assets que tu pourrais acheter
en tant que développeur de jeux vidéo, tu vois.
Donc là, tu vois, ton petit show
ou... Ah, ça a été si rapide.
Ou... ou tes flammes,
ou il y a un octopus là-bas. Enfin bon,
c'est très satisfaisant de se balader
sur leur site.
Et ça est globalement n'importe qui.
Là, peut déjà l'essayer.
Donc vous, si vous voulez créer un petit compte
et faire des tentatives, vous allez voir, c'est très très cool.
Qu'est-ce que tu as mis comme prompt ?
J'ai pas vu. Un petit show ?
J'ai mis un chien mignon.
Oh... Et bah, voici,
sous vos yeux, en temps réel,
un petit modèle 3D qui a été généré entièrement.
Et là, on commence à se rapprocher
de quelque chose de sympa. Parce que là, c'était vraiment
un prompt, c'est très... l'interface, c'est
tri-user-flaméli comme... Bah voilà, ça a pris 30 secondes.
Pour avoir testé... T'as testé en 30 secondes.
30 secondes et vous avez un petit
modèle. Alors là, effectivement, si tu zooms,
tu verras que la qualité est pas forcément
parfaite. Mais il faut se dire que c'est un...
Ha ha ha ha ha !
À l'aide !
Mais il faut se dire que voilà, c'est une génération
super facile. Et en gros, eux, ça, c'est un peu
pour te mettre l'eau à la bouche. Derrière, ils ont
des moyens d'améliorer ces modèles.
Ils ont des... Ils ont des générations
bien plus qualitatives.
Où tu vas payer un dollar, par exemple.
Et pour le coup, ça prendra 30 minutes
à générer. Mais tu obtiendras
des... Des... Des assets vraiment
super, super qualitatives...
qualitatives en haute résolution, etc.
Un des derniers, qui n'est pas encore sorti,
mais...
Donc j'ai trop hâte qu'ils sortent, c'est
Spline AI. Spline, c'est un
petit logiciel de 3D, qui
est très cool pour ceux qui ne savent pas
faire la 3D. Donc si tu...
C'est... J'ai vu des blenders et des trucs
comme ça, que tu trouves ça très cool.
Mais que... Mais que c'est un peu hors de portée
et que t'as pourtant besoin de te générer des trucs,
eh ben tu peux te tourner vers Spline 3D,
qui est... Ok. Bien plus accessible, mais
quand même assez puissant, et qui te permet
de générer de la 3D optimisée pour le Web,
d'ailleurs. Donc tu peux le... Ok.
Dans ton site Web, intégrer ta 3D,
animer avec même potentiellement
des interactions, des choses comme ça.
C'est vraiment très tracilé. Et ils ont
teasé une version augmentée
de leur outil, qui te donne
un accès, un... Un champ de texte,
un prompt, quoi. Et où tu peux
non seulement générer des... Des
modèles, 3D, des... Enfin voilà, des cubes,
des trucs complexes,
mais aussi interagir avec
et les modifier. Donc par exemple, ils te font
la démonstration, où ils demandent
8 cubes
alignés dans une grille,
au prompt, si tu laisses un petit peu, je crois que c'est ça
qui... Ils montent ça juste un peu plus bas dans la page.
Euh...
Voilà, j'aimerais
une grille avec 8 cubes,
et après juste en dessous, j'aimerais
qu'il soit maintenant ordonné de manière aléatoire.
Il paffe.
C'est incroyable.
En vrai, là, on commence vraiment à avoir
des trucs très christianiques. En plus, par des services
qui savent faire de lui et de lui-même.
Oui, c'est ça. Il savent... Ça donne envie.
Ça a empacté le truc, parce que ça a vraiment agréable
d'utiliser. Le problème, c'est que
ça n'est pas encore disponible,
et que... J'avais vu qu'il y avait une... Ouais,
c'est ça. Exactement, on peut s'inscrire pour la voir,
mais j'ai trouvé aucune démonstration
réelle qui permettrait de valider
que ce n'est pas de la poudre aux yeux. C'est ça le pro...
Moi, j'ai toujours un peu de m'éficience, parce que
entre parfois la publicité
et le... Est-ce que tu observes à la fin, il peut y avoir
un gap ou pas, suivant les boîtes
qui se créent des bonnes réputations, etc.
Parce que là, très envie. Ça donne envie.
Effectivement. Donc, si vous avez
un bypass
de l'attente et que vous voulez nous envoyer
un code, par exemple, n'hésitez pas.
C'est vrai qu'en plus...
On n'avait pas été en contact avec ce play, nous.
Je ne sais pas si on est en contact, mais...
ou peut-être que... Quand on parle, oui.
Je crois que c'était quandan.
On pourrait lui demander.
Clairement,
l'évolution, en un an et demi, est complètement
hallucinante. On n'est
passé de...
n'avoir aucune foutue idée qu'on pouvait générer
des visages en 2D, à
être capable d'avoir des assiettes super qualitatifs.
Vous avez même fait des petits essais. J'ai vu
une couronne de fleurs, par exemple, et des trucs comme ça.
Ouais, ça c'était...
On t'aurait dit ça il y a 2 ans que tu pouvais...
que tu pouvais... que tu... qu'on pourrait faire ça,
que n'importe qui pourrait faire ça.
Ouais, générer une couronne de fleurs sur l'Ooma, du coup,
qui peut en être de la faire, à quelque part dans le
runner, si jamais est-il, mais...
Personne n'y aurait cru, quoi.
Est-ce qu'il est fou, c'est le timing Nerf, je crois que c'est
2020, la publication. Ce que t'as dit, la Dream Fusion,
c'est 2022.
Donc, ça, vraiment, ça allait fait mid-journée
au Stable Diffusion. C'est vraiment là, on est...
Tout début de la courbe. Préparatoire 2020, alors que
les modèles de langage et de diffusion, c'était plus 2017,
on va dire. Donc, on a vraiment
le même schéma.
C'est très marrant à observer.
Il y a une dernière question que
on peut se poser. C'est, ok, là, les modèles, ils ont été
conçus. Il y a les premières démos.
Mais, quand on dise les pros,
parce que nous, on est là en mode, c'est cool, c'est sympa,
mais si ça se trouve, ça se rend pas compte,
et c'est inexploitable dans un jeu vidéo, etc.
Et ben, on a voulu, justement,
obtenir des réponses. Et Mathieu,
tu as posé la question
à des gens dans ton entourage.
Oui, alors c'est pas... Statistiquement,
ça ne valide pas les quotas.
Ce n'est pas une étude.
Mais je me suis dit, dans mon entourage,
il y a des gens qui se font soit de la 2D, soit de la 3D, etc.
Donc, j'ai voulu un peu leur demander,
j'ai demandé à plusieurs d'entre eux.
Ce qu'ils ont pensé, en fait, de la génération 3D
paria, donc le premier,
enfin, l'outil qui est le plus ressorti, c'est Luba,
justement, qui est celui visiblement le plus
abouti actuellement dans l'industrie,
et aussi le plus utilisable
facilement. Parce que, quand tu es un designer,
tu n'es pas non plus un développeur en intelligence
artificielle, donc ça compte aussi.
Et ce qui est marrant, c'est que
des échos que j'ai eus,
ils m'ont dit que c'était pas vraiment
utilisable en production quand un client
et que tu dois lui fournir
un environnement 3D.
Parce que, en fait, tu perds plus
de temps à chercher, à bouger tes promptes
que, finalement, à le faire
directement et que, si tu as des retours clients,
à adapter, en fait, c'est super
compliqué à adapter parce que tu n'as pas accès
au tout le mesh, si tu les appelle le maillage,
en fait, de l'objet avec tous ces points 3D.
Et donc, par exemple, si tu veux changer
l'éclairage de ta scène, tout de suite,
ou l'éclairage d'un objet plutôt,
si tu veux, si tu as généré
un objet, c'est beaucoup plus dur de changer
cet éclairage que si tu le fais toi-même
et que tu gères ton éclairage.
J'imagine que quand tu conceptualises
ta propre maison en 3D,
eh ben,
le logiciel a connaissance
des éléments indépendants.
Et donc, tu es capable de bouger
le long-emplacement d'une fenêtre,
ou l'épaisseur d'un truc.
Alors, là, ce que tu obtien, c'est le mesh complet
qui n'est potentiellement pas
du tout conscient de qu'est-ce qui s'arrête,
à quel endroit, qu'est-ce qui est ça.
Mais tu peux quand même faire chaque objet indépendamment,
notamment avec des...
Mais le raisonnement se généralise.
Mais ce qu'on m'a dit,
c'est que déjà, c'est actuellement
et que dans 2 ans, ça sera sans doute
pas du tout la même limonade
et que, potentiellement, on m'a dit que ça pouvait
complètement tenir la route dans 2 ans.
Et en fait, ce qui m'a un peu amusé,
c'est que j'ai trouvé cette réaction,
au final, pas du tout étendante.
Parce que c'est une réaction qu'on a un petit peu
en toutes les industries
qui sont touchées par LIA.
C'est qu'en fait, les professionnels,
déjà, ça te demande de changer de tout ton workflow.
Donc, c'est ta méthode de travail.
Donc, c'est plus difficile à prendre en compte.
Moi, je le vois pour l'écriture.
Au final, j'écris assez peu avec
des chatbots, alors que, évidemment,
ça se fait très bien, même si je l'utilise un petit peu.
Et surtout, en fait,
ce qui est marrant, c'est que
ce n'est pas
ces personnes qui vont en premier lieu
s'accaparer ce jour d'hier.
Nous, on a un exemple dans l'équipe qui est incroyable.
C'est Mika, notre monteur.
Il est monteur, il n'est pas du tout développeur.
Mais depuis que, sur chaque GPT,
on peut coder des choses,
c'est devenu un développeur en herbe.
Alors que, potentiellement,
le dev de notre équipe,
il utilise un peu Copaïlaut ou quoi,
mais potentiellement beaucoup moins que Mika, notre monteur,
qui est complètement néo-fit en code.
Parce que, en fait, lui, ça a changé,
ça a façon de fonctionner, il s'est dit, en fait,
je peux me mettre à coder, alors que je ne savais pas du tout.
Contrairement à quelqu'un qui s'est déjà codé,
ça va lui apporter un petit truc en plus, mais pas tant que ça.
Et bien, en fait, ce raisonnement,
il est complètement généralisable
à ces environnements 3D.
Et donc, là,
où ces outils de génération
d'objets 3D et de génération
d'environnements 3D sont intéressants,
c'est pas forcément pour les designers 3D,
depuis 10 ans,
qui comptent dans leurs clients,
je ne sais pas, Chanel, enfin bref,
des...
qui comptent dans leurs clients,
les mêmes clients depuis 10 ans,
qui sont des fidèles, etc.
En fait, ça va changer la chose,
la donne pour deux types de personnes,
selon moi et selon les discussions que j'ai pu avoir.
Premièrement, c'est tous les gens qui
ne savent pas du tout faire de 3D,
c'est-à-dire, nous, 99% des gens.
Les développeurs web.
Game Jam, tu dois faire un jeu vidéo
en un week-end,
potentiellement, tu as besoin de générer
50 assets pour 50 objets.
Toi, tu as juste une liste
de tes 50 objets,
et tu ne te fais pas chier,
tu lances une moulinette,
ça génère diversion par objet, et bam...
Ouais, et en fait,
jusqu'ici, on ne s'utilisait même pas,
je vais pouvoir intégrer des objets 3D
à un projet ou à ce que vous voulez,
et ça peut-être que demain,
ça va être complètement possible,
même à nous qui ne sommes pas du tout
designers 3D.
Et il y a un deuxième cas, et je voulais en parler,
parce que j'ai trouvé ça super intéressant,
et ça, c'est des discussions que j'ai eues,
où en fait,
la typologie de personne à laquelle ça a le plus servi,
c'est aux artistes 2D,
que ce soit des illustrateurs,
des gens qui font des interfaces,
des gens qui...
J'ai perdu mes...
des montages photos, des interfaces utilisateurs,
c'est qu'en fait,
ces artistes 2D, ils vont avoir besoin
de références en 3D.
Parce que, par exemple, pour faire, je ne sais pas,
une table, et bien, t'es content de voir
la table d'un côté de ton écran, et puis de la dessiner,
par exemple, si t'es illustrateur,
et de regarder comme la perspective de cette table,
etc. Et en fait, jusqu'ici,
soit ils avaient un peu des notions Blender, donc ils pouvaient le faire,
soit on m'a raconté qu'il y en a qui
utilisait Minecraft ou les Sims pour faire ça.
D'accord. C'est vertique.
On m'a vraiment raconté ça, j'étais l'un d'entre eux.
Et en fait, ça change complètement la donne
pour ces gens, parce que ça fait
de l'idéation des rêves à l'infini.
Tu vas sur du mat, tu crées ta chaise,
tu peux directement avoir un modèle de ta chaise
avec potentiellement, tu l'importes
dans un logiciel, tu bouges son éclairage
ou quoi, ou tu bouges pas son éclairage,
mais tu la bouges, quoi, sa position.
Et en fait, derrière, tu peux dessiner
ton illustration de façon beaucoup plus simple.
Et donc, là où ça va aider, c'est pas forcément
en premier lieu le designer 3D, c'est tous les métiers
qui y a autour, et qui peuvent se servir
de ces outils qui sont pas complètement
affinés.
C'est pas grave pour ce genre de métier
qui ne soit pas complètement affiné,
et du coup, ça leur sert bien.
Et donc, du coup, c'est typiquement ce genre
de personnes très très high-b par le
plane prompt qu'on a vu.
Moi, j'avoue, pareil, pourtant, je n'aurai rien
à faire, mais j'ai juste envie d'avoir accès
à ce truc-là. Le jouet est très très mort.
Mais voilà.
Pour finir, alors, il y a eu
des nouveautés depuis tout ce que t'as raconté,
notamment Stable Diffusion qui a sorti
un peu son modèle qui s'appelle
Stable 0123.
Et donc, ça promet
sans doute des avancées dans le secteur.
Ça, c'était tout récemment. C'était en décembre
ou en novembre, il me semble.
Mais surtout,
d'ailleurs, OpenEye a aussi sorti
Spachi.
Oh, j'ai oublié le nom. Une nouvelle version
de Plantii
pour faire très simple. Mais il y a un truc
très important,
très intéressant,
qui est apparu, je ne sais pas si tu en parles
ou si tu veux que j'en parle.
C'est qu'il y a une nouvelle techno qui est apparu
à l'été 2023. Ça a moins d'un an.
Et en plus, ça vient d'un labo français
de l'Ingria. Je ne m'y attendais pas quand j'ai vu ça.
Et ça s'appelle le 3D
Gaussian Splating.
Pour faire très simple, c'est exactement
le même principe que nerf.
Mais en différent. En fait, ils font la même chose
mais avec
des méthodes mathématiques différentes.
Ça a eu utilisé Gauss comme vous pouvez le
deviner. Et en fait,
cette méthode qui fait la même chose que nerf
est plus optimisée.
Et aussi précis,
voire parfois un peu plus, mais c'est plus
sur la rapidité
à effectuer le
calcul.
Ça va être très intéressant. On va pouvoir
voir une vidéo qui compare nerf et le Gaussian
Splating. Vous allez voir la vidéo,
on voit quelques différences, mais
ce n'est pas flagrant. Par contre,
ce qui va être très intéressant, c'est
nerf, la Gaussian Placing
à droite.
Donc il y a des petites différences et
tu peux potentiellement avancer un peu
dans la vidéo.
On voit des petites différences, mais on se
dit que c'est deux façons de faire différentes.
Parfois, il y a des aberrations de côté qui n'y a pas de l'un.
Et si tu vas à la fin de la vidéo, tu vas avoir
une information très importante
où il y a marqué le... Alors, du coup, on ne voit pas.
C'est un échec.
Mais...
Voilà. En gros,
on est passé de 4h30 à 1h30 et de
15h de rendering time
à 90 secondes.
Donc ça fait la même chose,
mais d'une façon beaucoup, beaucoup
plus efficace. A tel point
qu'aujourd'hui, ils disent qu'ils sont capables
de faire ce genre de rendu en temps réel
pour du 1080p à 30fps.
Ce qui est
absolument incroyable.
Et en fait, en termes de génération
d'objet 3D derrière,
le fait que ça soit instantané, comme vous l'avez vu
un peu sur les services, le fait que ça aille
super vite, c'est très important.
Et donc en fait, cette technologie qui est tout très sante
était 2023, donc qu'a pas encore été
trop trop implémentée
dans des services type LUMMA.
Et bien ça promet de très, très belles
améliorations.
Du très, très lourd.
Et comme d'habitude, là, on est
tout le monde est un peu circonstit de
la cavité du truc, du fait que
que c'est pas une utilisable, que c'est pas au point.
Mais encore une fois, un flashback
il y a deux ans, et on s'imaginait
qu'en image, on ne pourrait pas
jamais en faire grand chose.
Donc, on ne m'étonnerait pas qu'un petit
plus, un an, plus deux ans, on se retrouve
effectivement pour pouvoir se générer
des mondes complets,
ou se générer les objets dans son salon,
dans ce casque Apple Vision Pro.
Et on sera là
pour vous en parler, dans
d'une prochaine chronique.
Et surtout, il y a déjà des démo
honnêtement assez incroyables,
surtout que c'est visuel, donc on le voit.
Donc, tu dis ça plus deux ans.
Moi, ce que j'ai vu, par exemple,
juste à l'indot de fin, ce que j'ai
déjà vu, en fait,
de quelqu'un qui avait un Apple Vision Pro
et qui s'est enregistré,
avec trois fenêtres autour de lui.
Sur la première, il avait mis de journée
dans Discord, donc il lui a demandé de
lui générer un petit objet.
Sur la deuxième, il utilise
le dernier modèle de stable diffusion
pour transformer cette image 2D
en objet 3D.
Et sur la troisième, il transforme le fichier
en objets
compatibles, enfin je sais plus
si c'est pas un point 3D
ou je sais pas quel est, plus quelle forme
en fichier compatible Apple.
Il télécharge le fichier
et tu sais, dans la version
Safari de Apple Vision Pro,
tu as un viewer
d'en réalité augmenté.
Et donc, il prend
l'objet et le pose sur sa table.
Et tu vois, il est passé de,
je sais plus si c'était une couronne ou un petit bonhomme, ou un truc comme ça,
il est passé de, juste d'une idée
générée dans Discord, sur
mi-djournée, à un objet
virtuellement sur sa table, en 30 secondes.
Ah ouais, c'est fou.
C'est la prémisse de ce qui sera possible.