Juste avant de démarrer l'épisode, un petit mot pour ceux qui ont déjà pensé à mettre leur logement sur Airbnb,
le partenaire de cet épisode, mais qui se disent que ça fait un peu trop de travail.
Eh ben, Airbnb propose un truc plutôt malin.
Le réseau de CoAute.
J'ai des potes qui font ça parfois le week-end à Paris et c'est très pratique.
Imaginez, pendant que vous êtes absent, un CoAute expérimenté s'occupe de presque tout.
La remise des clés, le ménage, les échanges avec les voyageurs,
même la gestion du calendrier ou des photos si besoin.
Ça vous permet de générer un petit peu d'argent pour vous faire plaisir sans avoir à vous en occuper.
Alors, trouvez un CoAute sur rbnb.fr slash haute.
H-O-T-E.
Merci Airbnb et bon épisode.
La raison pour laquelle Amazon arrive à nous livrer en 24 heures,
c'est pas tellement leur camion ou leurs entrepôts,
c'est qu'ils savaient déjà qu'on allait acheter.
Une semaine avant, ils ont des modèles très avancés
pour prédire l'emplacement optimisé des stocks.
Ce problème d'arriver à prédire l'avenir, il est fondamental et ne date pas d'hier.
Que ce soit pour anticiper les admissions aux urgences
ou les stocks ou la demande en énergie.
Le problème, c'est que jusqu'à présent,
chaque domaine avait ses modèles ultra spécialisés.
Des simulations physiques pour anticiper la météo
aux moyennes bancales pour anticiper les ventes.
Avec cette approche, ils sont nécessairement aveugles
aux interactions complexes de notre monde.
Impossible de capturer l'impact d'un festival sur une pizzeria voisine,
ou l'effet d'une traîne TikTok sur la demande mondiale.
Mais ça, justement, c'est en train de changer.
Notre invité Geoffroy est le fondateur de The Forecasting Company.
Et ils essaient de mettre au point un modèle fondationnel
de prédiction de série temporelle.
C'est un gros mot pour dire un truc très simple,
à savoir ingérer énormément de données hétérogènes
pour essayer de prédire l'avenir.
Il va nous faire des petites démonstrations,
notamment essayer de prédire la crise de 2008 avant tout le monde.
Je trouve vous faite ?
Et assez étrange, fascinant, bizarre,
vous essayez de prédire l'avenir, en fait ?
Absolument.
En fait, nous, on pense que c'est un peu la prochaine frontière de LIA.
Après les images, bon, ça a commencé à être résolu 2012
et puis tout ce qui s'est passé après.
Après, le texte, évidemment, qu'on voit tout ce qui se passe maintenant.
Le mix des deux, évidemment, avec les modèles multimodaux textes et images, tu vois.
Mais les modèles comprennent toujours pas vraiment
en fait l'écoulement du temps.
Et ce qui s'est passé avant, ce qui va se passer après
et toutes les prévisions autour de ça.
Et c'est une modalité qu'on appelle techniquement
donc les série temporelles en français Time Series en anglais.
Ce que t'appelles les série temporelles ?
Ouais.
En réalité, c'est important à énormément d'endroits dans la société.
Un exemple que tu donnais, c'était les livraisons Amazon en 24 heures.
Moi, naïvement, tu te dis, ils ont des camions qui vont vite.
Ils ont plein d'entrepots partout.
Et c'est comme ça qu'on a réussi à le faire ou des robots.
Ça, c'est une partie du travail, mais c'est pas que ça.
La grosse majorité du travail, en fait, c'est de dire
si tu vas acheter des livres sur Amazon,
c'est de dire, ces livres-là,
il y a tant de gens à peu près cette semaine qui vont les acheter à tel endroit.
Et du coup, on va les mettre en avance une semaine à l'avance.
Et du coup, on peut prendre notre temps,
on peut utiliser un camion super lent ou un bateau ou quelque chose comme ça.
Comme ça, il arrive tout juste au bon moment.
Et après, quand tu vas chez Amazon, tu l'achètes,
tu dis, c'est incroyable, ils arrivent à me le livrer immédiatement.
Et donc, ça va de Amazon,
ça va la gestion de l'énergie, ça va la gestion des hôpitaux.
Enfin, tous les systèmes qui sont gros et où il y a
des locations de ressources,
et où c'est basé sur la demande des gens,
et pour répondre à cette demande, il faut à peu près la prévoir.
Quand tu nous dis, c'est...
Ce serait super si on pouvait prévenir l'avenir.
Ben oui.
Moi, je suis d'accord avec toi.
Globalement.
Il y a plein d'autres exemples super intéressants,
mais en tout cas, moi, tu es une pizza-riar.
Tu veux essayer de prédire quand il va y avoir un pic d'activité
pour embaucher de bon nombre de personnes.
Et quand il y a un festival de musique juste à côté
et que les gens commandent des pizzas,
tu as énormément de pizzas tout d'un coup,
t'as quand même un terrain à le savoir
et à le prévoir, à prévoir l'impact sur ton business,
sinon, t'es en rupture de stock tout de suite.
Donc si on prend quelques exemples comme ceux qu'on a donné,
Amazon, ils arrivent visiblement déjà à le faire.
C'est à dire qu'ils peuvent prédire l'avenir à leur petite échelle déjà.
Comment ils font ?
Donc, avant, les systèmes d'avance,
c'était plutôt des systèmes statistiques.
Tu peux penser à des choses hyper basiques,
genre des moyennes glissantes.
C'est à dire que tu regardes qu'est-ce qu'on a vendu
sur les six dernières semaines,
et tu dis bon, une estimée raisonnable,
c'est qu'on va vendre la moyenne de ça
sur les trois semaines qui viennent.
Mais en fait, la difficulté,
c'est que ça ne prend pas en compte les fluctuations
de la demande.
Et notamment, typiquement, c'était une saisonnalité
où il y a un item qui se vend que l'hiver.
Si tu prends la moyenne des six semaines d'avant,
mais que maintenant tu es en mars,
ça marche moins bien.
Et donc, il y a eu, après ça,
des modèles un peu plus compliqués
qui prennent en compte ce qu'on appelle la saisonnalité.
Donc, par exemple, il y a des choses où c'est
que le week-end et pas trop en semaine, etc.
Enfin, en fait, qui arrivent à apprendre un petit peu
ces paternas,
mais seulement en regardant la cible que tu essaies de prédire.
Donc, mettons que tu vends des sandwichs.
Ces modèles-là regardent littéralement
juste combien de sandwichs que tu as vendus avant.
Mais ils ont vraiment du mal à prendre en compte
tout ce qui est justement d'informations extérieures,
un peu l'état du monde au moment
où tu fais ta prédiction.
Avec ces systèmes-là statistiques,
on savait déjà prédire un petit peu
ce qui pouvait se passer sur la semaine, etc.
Et tous les gros le font.
En fait, c'est quelque chose où,
à partir d'une certaine taille,
quand tu es, je ne sais pas, pizza-lotte, domino-spizza,
ou ce genre de marque,
t'es obligé de prédire parce que
sinon tu te retrouves sans arrêt en rupture de stock.
Ou au contraire, tu as des invendus
et surtout des invendus périssables
que tu es littéralement obligé de jeter tout le temps.
Ou alors, tu n'as pas assez de staff,
littéralement, dont on restait,
il n'y a pas assez de gens pour gérer les clients.
Et si on pense, par exemple, à la météo,
ou c'est de la prédiction, si tu veux,
littéralement prédire l'avenir,
ou à la bourse,
tu as plein de traders dont l'unique job
est d'essayer de prédire l'avenir,
dans ces domaines-là,
pareil, on savait déjà faire des choses ?
On savait déjà faire des choses,
encore une fois parce qu'on est un peu obligés,
donc par exemple, le premier modèle
de prédiction des aura-gants,
ça a été développé par l'Air Force américaine
dans les années 50,
parce qu'ils se rendent du compte
qu'ils n'arrivaient pas à prédire les aura-gants,
et les aura-gants passaient sur les bases aériennes
et dévastaient les avions qui leur coûtaient quand même...
Et donc au moment où ils se sont dit,
bon, si on arrivait à savoir à peu près,
peut-être même 5 heures avant
qu'il allait avoir un aura-gant à ce temps-là,
on peut ranger les avions.
Et déjà, on peut commencer à faire quelque chose.
Et alors, typiquement, ça a ressemblé à quoi ?
En fait, ça, c'est la grosse différence aussi
par rapport au aujourd'hui,
c'est que c'était très spécifique au cas d'usage.
C'est-à-dire que pour faire un modèle d'aura-gant,
en fait, tu vas faire des modèles physiques.
Donc tu vas faire essentiellement de la simulation,
tu vois, des vents, des températures,
tu vas essayer d'avoir peut-être des tours, des senseurs,
tu vois, de température de vent, de pression,
enfin tout ces trucs-là.
Et tu vas faire des modèles physiques, vraiment,
que tu vas faire tourner dans des énormes clusters,
et ça va te donner tout un tas de scénarios possibles,
et tu vas avoir tes résultats là-dessus.
C'est assez coûteux,
parce que les simulations physiques pour faire ça,
tu es obligé de les faire avec un pas de temps très court.
Donc tu es obligé de simuler, en fait,
tu avances, je sais pas, lors de la millisecondes,
à chaque fois dans ta simulation,
donc si je simule deux semaines en avance,
bah t'imagines la complexité du truc.
Dans les autres domaines,
donc typiquement, je sais pas,
les trucs plus logistiques,
ou je sais pas, pharmaceutiques,
il y a combien de médicaments les gens vont acheter,
ou ce genre de trucs, évidemment,
là, il n'y a pas de physique du problème.
Donc tu peux pas encoder les équations de la demande
et de comment les gens réagissent, en fait,
parce que c'est très social.
En gros, la météo, etc.,
c'est une équation avec énormément de facteurs
qui correspondent aux lois physiques.
Absolument.
Tu peux tenter quand même d'en coder
avant que la complexité n'explose.
Autant dans les achats,
là, tu écoutes ton équation, c'est des humains.
Bah ouais.
Et donc, t'as pas les équations maîtresses,
tu peux pas mesurer des constantes physiques
de combien les gens achètent.
Ouais, ouais, ouais.
De l'hyprane.
Voilà.
Ou la réaction à une vidéo sur TikTok,
tu vois, qui va faire que la demande pour telle cosmétique
va exploser tout d'un coup, ou ce genre de trucs.
Il n'y a pas de physique là-dedans, quoi.
Et c'est ce que t'expliquais sur le fait que,
historiquement, les modèles ne savaient faire
que des petites correlations,
mais ne pouvaient pas prendre en compte
tout l'extérieur, en fait.
Ouais, c'est ça.
Jusqu'à ce que arrivent les transformers.
Et la révolution qu'on est en train de vivre globalement.
En gros, les modèles de langue
ont connu un succès fulgurant.
Et ce qu'ils font, c'est de prédire du texte.
De prédire ce qui vient après le prochain token, en fait.
Et là, l'idée, en gros, c'est que dans une série temporelle,
tu prédies plus du texte, mais un chiffre.
Absolument.
Et donc, du coup, on passe d'un problème qui est...
En fait, le texte, c'est un problème de classification,
où t'as un vocabulaire qui est fixe.
Et tu vas dire, OK, voilà les tokens...
Qu'ils sont le plus propices
pour être le prochain mot dans ma phrase.
Et tu sais aussi que les tokens, ils peuvent se remplacer parfois.
Donc, on a des synonymes, on a des choses comme ça.
Ce n'est pas forcément très clair
qu'il y en a toujours un qui va être meilleur que d'autres.
Alors que, dans la prédiction, en gros, soit t'as raison, soit t'as tort.
Et c'est mesurable.
C'est-à-dire qu'il suffit d'attendre, en fait.
Donc, c'est ce qu'on appelle une régression par rapport à une classification.
Et on peut très bien mesurer des distances, en fait,
de... Tu vois, si j'ai dit qu'on allait vendre 100 pizzas
et qu'en fait, on en vend 150, je me suis planté de 50 pizzas.
Ça, c'est hyper intéressant parce que un des plus gros problèmes
qui a freiné, qui a fait que c'est que maintenant,
en fait, qu'on a du succès avec les modèles de langue et de la discussion
et qu'on a en gros craqué la langue,
c'était justement d'avoir ce truc qui te dit,
là, c'est bien, là, c'est pas bien,
sur lequel tu peux itérer des milliards de fois
lors de l'entraînement pour progresser.
Et la grande clé d'oponéi, c'était le feedback humain, justement.
Et donc, là, toi, dans ton cas, avec ton problème...
Donc, on a moins ce problème-là.
C'est ça.
Les limites, ça a l'air plus simple.
Là, tu me le dis comme ça.
Là-dessus, c'est plus simple.
Ça a l'air plus simple.
À quel moment, ça devient compliqué ?
Parce que tu n'es pas oponéi à y avoir.
Ce qui est compliqué, c'est que
il n'y a pas beaucoup de données de série temporelle.
Il n'y en a pas de temps que ça qui sont publics.
En fait, l'origine du fracassin culturellement, c'est les statistiques.
C'est pas le machine learning.
Les gens qui faisaient des fracasses, c'étaient souvent des économétriciens.
Des gens qui font de l'économétrice, c'est-à-dire de l'économie mesurable.
Et typiquement, c'est eux qui vont faire des projections de PIB.
Tu vois.
Le PIB, tu fais une projection par trimestre pour ton pays.
En gros, ton taf à temps plein, c'est de sortir un chiffre par trimestre.
Tu vois.
Et tu mesures ton PIB une fois par une fois tous les trois mois.
Donc, même si tu as 20 ans, 50 ans d'historique,
tu multiplies par quatre pour avoir le nombre de points de données que tu as.
Oui, en fait, c'est très peu.
Donc, tu es à 100 ou 200.
En fait, pour expliquer pour ceux qui ne sont pas dans le lien, c'est très peu.
C'est extrêmement peu.
En comparaison, je ne sais pas, au PNI, leurs modèles, ils sont entraînés sur des milliers de milliards de tokens.
Ou à chaque fois, il y a ce signal qui dit, ça, c'est bon, ça, c'est pas bon.
Bon, c'est pas le même.
C'est pour ça qu'on ne peut pas faire un modèle qui prédit le PIB pour l'instant.
C'est difficile.
Mais là où c'est en train de changer,
déjà, il y a un truc énorme, c'est les initiatives d'open data des gouvernements.
Donc, par exemple, toutes les données météo
qui sont récoltées par NOAA, qui est le service météo américain, sont publiques et gratuites.
Donc, tu peux aller télécharger un domaine de terra et de terra de données météo.
Et en fait, tu as la même chose à l'échelle des villes, à l'échelle,
enfin, surtout un tas de trucs.
Mais ça reste des sources de données qui sont très diverses,
très compliquées à ingérer, parce que toutes ont un peu différentes.
Et ça, du coup, c'est une des choses qui était difficile,
c'est de pouvoir gérer des dataset qui sont différents, qui ont des schémas différents.
Est-ce que, historiquement, tous les modèles qu'on crée étaient extrêmement spécifiques ?
Très précis.
Un problème ?
Ouais.
Et demander des super experts du problème en question.
Ouais.
Ce qui s'est passé avec les modèles de langue, c'est qu'on a arrêté, justement, de faire des modèles ultra spécifiques.
On a réussi à créer des modèles beaucoup plus gros,
qui ont plutôt une vue d'ensemble, en fait, sur la langue en elle-même,
et sur toutes les connaissances disponibles des humains, sur Internet, etc.
C'est-à-dire qu'un seul modèle, on appelle-le les modèles de fondation, etc.,
peut faire plein de choses.
Plein de choses différentes.
Et, en gros, l'idée avec la boîte, qui s'appelle The Forecasting Company,
c'est d'essayer de répliquer ça.
Absolument.
Ce principe de faire un modèle générique.
C'est ça.
Donc, de faire un modèle qui peut, premièrement, apprendre de données qui sont extrêmement diverses.
Donc, en fait, tu peux mettre des données de PIB,
tu peux aussi mettre des données d'usage de cloud à la millisecondes,
tu peux aussi mettre des données d'énergie, d'hôpitaux, de vente de pizzas,
et toutes les variables qui les affectent.
Donc, tout le contexte, justement, l'arrangement en LLM,
on parle beaucoup de contexte engineering,
mais sur The Forecasting, c'est un truc qui est extrêmement clé et qui l'est depuis longtemps.
C'est à dire quoi ?
Contexte engineering, c'est de décider, avec des bons principes et des bonnes méthodes,
ce que tu montres à ton modèle.
Donc, mettons que tu es ce magasin de pizza qui est, je sais pas, en bordure du parc de Vincent,
ou un truc comme ça,
et où, en fait, tu es très sensible aux événements qui vont avoir lieu dans le parc.
Si tu ne lui dis pas les événements,
bah ton modèle à beau est super compressé,
et avoir la compréhension du monde, etc.
Bah, il ne peut pas les inventer, tu vois.
En fait, il lui manque des infos, c'est ça ?
Il lui manque des infos.
Et il lui manque la compréhension du monde sur comment est-ce que ces informations interagissent.
Donc, par exemple, dans ton dataset d'entraînement,
tu lui donnerais des chiffres de vente,
mais aussi, par exemple, des relevés de presse de tous les événements.
Des relevés de presse, peut-être que tu vas lui donner tous les concerts et tous les événements locaux
que tu peux choper sur des API genre Ticketmaster ou ce genre de choses,
tu peux aussi intégrer ça dans le modèle.
Tu peux aussi, et là, c'est un peu le monde qui touche beaucoup à la finance et au advertising,
enfin, à la pub, c'est toute la compréhension du comportement humain.
Donc, il y a tout un tas de boîtes qui vendent ce qu'on appelle des sources de données alternatives.
Je sais que ça.
Donc, les données alternatives, c'est des données qui ont du signal sur des businesses.
C'est plutôt un truc qui vient de la finance à la base.
Mais donc, t'es intéressé par savoir comment, justement, Pizza Hut se performe, tu vois.
Et tu veux pouvoir trader leur stock, ce genre de truc.
Bah, si tu savais exactement combien de gens allaient dans les magasins de Pizza Hut,
ça pourrait aider, tu vois.
Bah, il se trouve qu'il y a des gens qui vendent ce genre de données.
Donc, ils vendent, par exemple, des données agrégées de localisation mobile,
ils vendent des données par satellite ou en fait, ils comptent littéralement les voitures par satellite sur les parkings
et du coup, ils peuvent te dire, bah ouais, cet endroit, en fait, ça se passe bien ou pas.
Ou les Vellib.
Les Vellib, c'est de la données publique.
Et ça, typiquement, savoir combien il y a de vélos dans toutes les bornes à Paris,
c'est, il y a une API live que tu peux pinguer et c'est gratuit et ouvert, tu vois.
Mais alors, tout ça, là, c'est extrêmement hétérogène.
Extrêmement hétérogène.
Et c'est pour ça que c'était difficile jusqu'ici, quoi.
Explique-nous, toi, comment tu fais là, maintenant, avec tout ça ?
Bah, tu t'entraînes un gros transformer où t'as des variables qui sont des cibles.
Donc, mettons, sinon, on va travailler avec une boîte de pizza,
ça va être justement le nombre de pizzas vendus, quoi.
Et ensuite, c'est un système qui ressemble beaucoup à du rag, en fait.
Rag, c'est, en anglais, retrieval augmented generation.
Essentiellement, c'est un moteur de recherche qui est branché sur un LLM, quoi.
C'est-à-dire que tu dis, OK, je veux prédire ces pizzas près de Vincent,
et bien, le modèle, tu peux lui décrire le cas d'usage,
tu peux lui dire, bah voilà, moi, je suis une boîte de pizza, je suis à Vincent, machin.
Et le modèle va comprendre qu'il faut aller chercher, en fait,
quels sont les événements locaux,
mais aussi peut-être qu'il y a la météo,
parce que je sais pas, les gens, ils mangent plutôt moins de pizzas quand ils font beaux,
enfin, ce genre de choses.
Tu lui dis pas ces informations dans l'entraînement ?
C'est les deux. C'est les deux.
C'est les deux.
Mais de la même façon que les systèmes de rag sont entraînés pour être des systèmes de rag, tu vois.
Oui, oui, oui.
Toi, dans ton cas, ce que tu fais pendant l'entraînement,
c'est que tu lui donnes toutes tes données en palmelle,
avec à chaque fois le résultat de la prédiction.
Absolument.
Et le jour J, tu vas vraiment l'utiliser,
tu lui donnes juste les mêmes infos en palmelle,
donc les coupures de presse, les mêmes toutes les événements.
C'est ça.
Il te pond le chiffre, quoi.
Et il te sort un chiffre.
Pour aller un peu plus loin, en fait, il te sort une distribution,
parce que quand on fait des prédictions comme ça,
en réalité, on sait qu'il y a des énormes sources d'aléas dans le monde, tu vois.
Et du coup, en fait, tu vas pas juste dire, je vais vendre 100 pizzas,
c'est plutôt que je pense que je vais vendre entre 90 et 125,
et il y a de bonnes chances que ce soit entre 105 et 110.
Et ça, c'est beaucoup plus actionnable, en fait, pour les gens,
parce que tu peux faire de la gestion de risque.
En fait, par exemple, si tu veux vendre 500 pizzas,
avec une haute probabilité, je vais pas...
Tu n'auras pas la même stratégie, quoi.
Si je te dis, en fait, on ne sait pas du tout là,
il y a un événement, mais en même temps, il pleut, machin,
donc ça se trouve, c'est entre 100 et 1000, tu vois.
Ce qui est vrai.
Enfin, je veux dire, il y a des cas où c'est vraiment ça.
C'est, mettons, t'es leur swift, elle est là,
et tu apprends la veille, qu'elle est malade.
Bon, tu vas faire tes 20 000 pizzas,
et en fait, elle peut pas chanter,
et tu te trouves avec 20 000 pizzas sur le bras, quoi.
Donc c'est pour ça que vraiment, cette quantification de l'incertitude,
c'est hyper, hyper important dans ces cas-là.
C'est trop intéressant.
Alors, un exemple génial que tu donnais, c'était la crise de 2007.
Oui.
Et qu'en fait, via certains jeux de données,
il aurait été possible de prévier la crise.
Il est possible de se dire que, en tout cas, quelque chose n'allait pas.
Est-ce que tu peux nous expliquer ça ?
Oui, je peux vous le montrer d'ailleurs, potentiellement.
Donc là, par exemple, on a ce jeu de données
qui est encore une fois un jeu de données publique
du nombre de maisons vendus tous les mois aux US pendant une vingtaine d'années.
Ça, je peux choisir, il y a deux colonnes dans ce jeu de données.
Il y en a une qui est justement le nombre de maisons vendus tous les mois,
et on voit là tout de suite,
en fait, il y a des paternes assez claires, quoi.
C'est hyper cyclic, donc il y a une saisonnité annuelle,
ce qu'on appelle pas une saisonnité annuelle.
Le bas, c'est en novembre,
en fait, personne n'achète de maison en novembre.
Après, ça remonte en début d'année,
et puis ça se refroidit progressivement jusqu'à réattendre le bas.
On voit aussi qu'il y a cette tendance haussière,
et puis là, il y a un phénomène assez intéressant qu'on voit.
À partir de 2006, en fait, c'est donc quand même avant 2007,
où en fait, le marché immobilier se casse complètement la gueule, quoi.
Et donc, la tendance a aussi disparaît assez vite,
et vraiment, ça se casse la gueule.
Et ce qu'on voit envers là, c'est les forecast que notre modèle aurait fait,
si on avait fait un forecast, là, le début mai 2013.
Et on peut, en fait, sur la plateforme,
c'est ça qui a un truc un peu marrant,
c'est qu'on peut voir en fait comment est-ce que le modèle performe pour comparer,
et on voit que c'est quand même pas trop mal,
parce qu'on est à 6-7% d'erreurs en gros,
relatives à ce qui s'est vraiment passé.
Et là, pour le coup, on est d'accord que ton modèle n'a pas vu.
Il n'a pas vu ce qu'il y a là.
Absolument. Si on se met un peu plus tard...
C'est en 2006.
Ouais, août 2006.
Et ce qui est intéressant aussi, c'est ce qu'on voit sur les données ombragées, quoi.
Ça, c'est l'intervalle de confiance.
Donc, c'est-à-dire que le modèle dit,
en moyenne, je pense, que ça va être à peu près comme ça,
mais il y a 10% de chance pour qu'en fait, on soit ici.
Et il y a 10% de chance qu'on soit ici.
Plus on est dans l'avenir, plus on est dans le futur.
Plus il y a de l'incertitude.
Et là, tu le vois, en fait, et ça, c'est aussi un autre truc cool avec ces modèles-là,
c'est que l'incertitude au début, elle est moins large
que l'incertitude plus loin dans le futur.
Et l'autre truc intéressant, du coup, c'est si on lui rajoute de l'information.
Donc là, par exemple, on a ce qu'on appelle l'index des prix.
Donc, dans l'immobilier, l'index des prix, c'est le multiple.
En gros, que l'augmentation des prix au cours du temps.
Et donc, si on dit en passant...
En gros, ça fait 10% au début.
Oui, mais en fait, ce qui est assez ouf, c'est, surgarde, les années 90,
donc tu es à 100, quand tu es en 2006, tu es à 230.
Donc ça veut dire que ça a fait quasiment fois deux et demi en 20 ans.
Et après, tu vois une grosse correction.
Le bon investissement.
Voilà. Donc là,
typiquement, si je retourne du coup sur la vibe qui m'intéresse de prédire,
par exemple, et que je dis, OK, maintenant, je vais rajouter cette information-là
au modèle. Qu'est-ce qui se passe ?
Et bien là, le modèle, il est meilleur.
Il a augmenté le contexte qu'il a.
J'ai augmenté le contexte qu'il a.
Je lui ai donné du contexte qui est pertinent pour ça.
Et là, on voit la différence.
Donc là, on est à peu près à 38, 39% d'erreur,
alors que si je l'enlève, on passe à 43.
Donc pour les gens qui sont dans les marchés,
pour les gens qui investissent dans l'immobilier à grande échelle, etc.,
c'est significatif.
Mais tu vois aussi que l'intervalle de confiance, il grandit.
Et donc tu vois déjà que le modèle, il shoppe qu'il y a un truc.
Tu vois, il y a un truc qui n'est pas comme d'habitude.
Il y a plus d'incertitude parce que ça peut vachement changer.
Moi, je trouve qu'il y a un truc qui est intéressant avec l'exemple de la crise.
Ouais.
En 2007, c'est tu vas voir un expert.
Tu te donnes toutes les informations avant de le dire, si il ne s'ouge pas quoi.
Bon déjà, après coup, c'est facile à dire.
Ouais.
Et deuxièmement, il y a ce fameux événement inattendu
qu'on dit parfois un prédéciable.
Voilà, le signe noir qui fait que personne n'avait capté,
personne n'avait pu prédire.
Ouais.
Toi, tu as ré, tu dis, on va faire un modèle fondationnel parce qu'on pense que
tout comme la langue a été craquée,
la prédiction va être craquée de la même manière.
Craquer, tu vas craquer pour la prédiction, c'est une grande,
c'est un grand claim.
Mais ça va quand même dire que toi, tu crois.
Ouais, absolument.
Un des trucs qui moi m'a forgé cette conviction,
c'est les premières grosses avancées dans les modèles de prédiction,
c'est en fait la météo et le climat.
La météo et le climat, c'est quand même des systèmes complexes.
Mettons que c'est une approche purement basée sur des données.
Tu vois pas des méthodes structurelles, de physique, etc.
Quand tu montres beaucoup, beaucoup de données satellite, observées,
etc. ces modèles, en fait, ils sont plutôt bons.
Au point que maintenant, les modèles en prod à la météo européenne, etc.
c'est des modèles hybrides, en fait, entre les modèles plus classiques
de simulation physique et des modèles qui sont basés sur les données
et les observations qui vont faire des prédictions à six heures d'avance.
Alors Amazon, Amazon, tout le temps, on s'est emprouvé de stock.
Du coup, c'est des transmissions.
Et ça fait déjà cinq ans qu'ils sont passés aux transformeurs en prod.
Et une des raisons, c'est parce qu'ils entraînent leur modèle
sur littéralement des centaines de millions d'items différents.
Le sens de l'histoire chez Amazon et chez tout un tas de gens,
c'est en fait la consolidation.
C'est-à-dire qu'avant, ils allaient avoir justement des modèles
un peu de moyennes glissantes qui étaient tunés pour certains cas,
pour les livres, pour les frigos, ce genre de trucs,
pour les différents marchés, etc.
Et petit à petit, ce qu'ils font, c'est qu'ils font des modèles
les plus en plus gros, mais qui sont entraînés sur
une plus en plus grosse partie de leur jeu de données.
Donc c'est un peu deux choses.
Tu réduis les coûts de maintenance,
parce que tu n'as pas 150 modèles qui cassent tout le temps,
enfin il y a tout le temps un qui casse et ça te prend un temps de fou, etc.
Le deuxième truc, c'est le transfert d'information.
Ou le même modèle à tout vu.
Et ça marche mieux.
Et ça marche mieux.
Et du coup, ces deux effets-là, ils se autant être retiennent,
parce que plus ça marche mieux, et en même temps,
tu n'as que ce modèle-là,
enfin, toute ton équipe, elle est focalisée sur faire en sorte
que ce modèle-là marche mieux,
évidemment, il va marcher encore mieux.
Et du coup, tu peux fusionner de plus en plus,
et il va être de plus en plus flexible,
et il peut prendre ces différentes modalités,
ces différentes sources de données, etc.
Et ce qu'on a vu sur Chatchapit, c'est que...
Absolument.
Les modèles spécialisés en code se font exploser
par un modèle non spécialisé en code,
mais qui a vu tout internet, en fait.
Oui, en fait, cette consolidation-là et ce transfert,
enfin, dans les séries temporelles,
ça permet aussi une allocation de ressources différentes, tu vois.
En fait, aujourd'hui, tu vas dans la plupart des boîtes,
il y a des gens qui font du forecasting un peu partout.
Il y a des gens dans la supply,
qui sont soit sur Excel, soit sur un ERP, avec un plugin, machin,
qui vont le configurer, qui vont faire des trucs à la main, etc.
Il y a les gens en finance, qui eux, sont plutôt,
justement, sur Excel, qui vont être sur des données mensuelles,
ce genre de trucs.
Il y a le staffing, c'est peut-être les gens en RH,
qui vont faire ça, etc.
Et en fait, si tu arrives à consolider tout ça,
tout ça, c'est les données temporelles
qui sont basées sur les données du business, tu vois.
Et donc, si tu arrives à avoir, justement,
un modèle qui est suffisamment flex pour intégrer
ces différentes sources d'informations-là
et faire des prédictions qui sont, en fait, cohérentes
à travers toute la boîte,
ben, en fait, les gens, ils n'ont plus besoin
de maintenir des modèles en tous les sens.
Ils peuvent avoir une source de vérité, en fait,
fiable, qui estime bien le risque.
Donc, ce n'est pas juste de dire, encore une fois,
ça va être sans la semaine prochaine,
mais il y a un truc plus nuant, c'est que ça.
Et qui permet, du coup, aux gens de prendre
des vraies décisions de business, quoi.
De dire, nous, on est prêt à tolérer ce risque-là, là-dessus,
mais là, non, et de mieux gérer,
genre, des systèmes qui sont incroyablement complexes.
Et en fait, moi, j'ai l'impression que tu vas même encore plus loin
à savoir que, dans ton idée, à terme, peut-être,
comme ce qui se passe avec JGPT,
moi, dans ma boîte petite, qui n'a pas de budget.
Ouais, pour casting.
Ouais.
Il pourrait peut-être avoir un modèle général
qui est super bon à prédire n'importe quelle série.
Et moi, je vais l'appliquer.
Je vais te donner un exemple là.
Est-ce que le vidéo va bien marcher ?
Par exemple.
Je ne sais pas.
C'est une métrique qui te intéresse.
Ça va, t'as la dingue.
À mon avis, t'as les données d'auditeurs.
Je lui donne le titre de la vidéo, le ce qui est contenu.
Bah ouais.
Et en fait, TikTok, le fait déjà.
Ils ont, launch, il y a quelques temps,
une partie de leur business qui s'appelle TikTok Shop.
Ou en fait, c'est une plateforme d'e-commerce
qui est, en fait, pour les créateurs de contenu sur TikTok,
ils vont faire soit du contenu sponsorisé,
soit vendre eux-mêmes leurs produits.
Tu vois.
Et le truc qui est assez ouf avec TikTok,
c'est que c'est eux qui gèrent la supply chain pour toi.
À l'Amazon, quoi.
C'est-à-dire que toi, tu crées ton espace.
Et c'est, alors, soit du dropshipping,
soit toi, tu as un...
tu produis tes trucs ou tu as un fournisseur,
et en fait, tu vas le connecter direct
avec la plateforme TikTok Shop.
TikTok Shop propose à ces gens qui créent du contenu
des forecasts,
et eux-mêmes, vu qu'ils sont obligés de gérer la supply chain
pour leurs clients, ils sont obligés de faire des forecasts.
Pour faire ces forecasts-là, ils utilisent le contenu des vidéos.
Donc, littéralement, les vidéos,
et ils peuvent détecter quand un produit va devenir viral.
Ils ont tous les signaux faibles un peu de ce qui se passe,
et ils ont en face les données de vente.
Donc ils peuvent très bien matcher les deux, tu vois,
parce qu'ils contrôlent tout, quoi.
Ce serait qu'on exame beaucoup plus dur, justement.
Une courée, un signal faible, comme tu dis.
C'est, tu vas voir que...
je sais pas, tel coupe de cheveux, tu vois.
Comment ça va y avoir de plus en plus d'influenceurs
qui ont un peu ça, et ils ont quand même pas mal de vues.
Et puis, il y a tel marque qui vend exactement ce qu'il faut
pour ce public-là, tu vois.
Bah là, ils vont se dire, OK, on va stocker les entrepôts,
parce que ça va partir, quoi.
C'est dingue.
Ce qu'on a vu, c'est que la raison pour laquelle
il y a eu un progrès aussi rapide dans les modes adjuvant,
c'est Internet.
C'est qu'en gros, humains, nous avons produit énormément de...
Je suis en train de me parler sur Internet.
En fait, le texte, et même au-delà d'Internet,
aussi les scans de bouquins.
Ceux des vidéos aussi.
Voilà, ça fait juste 1 000 ans qu'on écrit des bouquins.
Ça a été un accélérateur incroyable pour le langue.
Et on voit qu'aujourd'hui, on est arrivé à la limite de ça,
alors il faut trouver des nouvelles solutions
pour générer du texte supplémentaire.
Est-ce que l'avantage des séries temporelles,
c'est en gros, certes,
les bases de données sont pas encore assez disponibles,
c'est accessible, etc.
Mais il y en a énormément.
Énormément, pas.
Énormément.
Et constamment, ça veut dire que ça ne...
Ça ne...
Ça ne...
Ça n'a pas de raison de ralentir.
Absolument.
Tous les business, en fait,
à chaque fois que tu fais une opération, une transaction,
je vois que tu vas quelque part,
en fait, il y a un log quelque part.
Et en général, les logs restent privés
et ils ne sont pas soudainement mis à disposition de tout le monde.
Mais ils existent.
C'est drôle, c'est que sur TOLINGDIN, il y a marqué
« j'achète des données ».
Absolument.
Un premier livre.
Vraiment dans un...
Oui, parce qu'en fait, le concept est incroyable.
Oui.
L'exécution a l'air déjà hyper avancée
avec le truc qui m'est « but donné ».
Mais il y a ce sentiment qu'en fait,
le seul truc qui manque là,
c'est des grandes quantités de...
Bah oui.
C'est un des gros sujets.
Ralent.
Il y a...
Alors, il y a une partie « oui »
et une partie « non »
parce qu'il y a un aspect hyper prometteur
qui est complètement orthogonal à tout ça,
c'est les données synthétiques.
Donc comme pour le texte où on commence à générer
les données synthétiques,
en fait, là,
il commence à y avoir des preuves
que, aussi dans les séries temporelles,
si tu génères des données synthétiques
qui sont structurées d'une certaine façon,
tu peux en fait, à nouveau,
brancher ce cycle de...
Bah t'entraînes sur des vraies données,
ensuite tu synthétises des données
et ensuite tu réentraînes là-dessus
et la perte s'améliore.
Donc pour te donner un exemple,
c'est...
Tu vois, les prédictions météo-avant,
c'étaient des simulations physiques.
Les simulations physiques, c'est littéralement
des données synthétiques.
En quelque sorte, tu refais le chemin inverse.
C'est-à-dire que les humains,
quand ils ont écrit ces équations,
eux, ils ont dû bosser,
faire plein d'expériences
et comprendre la physique.
Une fois qu'on a ces équations,
on peut maintenant simuler des données,
genre beaucoup, beaucoup plus
que ce qu'on pouvait faire
en expérience dans le Vrêmande.
Et maintenant, du coup,
avec toutes ces données-là,
tu peux prendre un modèle
qui apprend se juste sur les données
et où tu ne lui encote pas la physique
et d'une certaine façon,
il va comprendre la physique.
Donc il refait le chemin inverse,
tu vois.
Dans le passé.
A différence de ton modèle physique de simulation,
ouais.
Lui, il va être capable,
éventuellement, de faire des correlations entre...
Ok, 10 jours plus tôt.
Ouais.
D'après toutes les données,
j'arrive à voir des signaux faibles
sur le fait qu'il y a un aura grand.
Exactement.
Ce que t'as aimé en train de faire.
De ne s'est faire que...
Oui, parce que la simulation,
il ne faut que se faire que
en faisant tout le chemin, quoi.
Avec des toutes petites,
des courses mini-secondes.
Sinon, on a du mal à comprendre l'intérêt.
Là, l'intérêt, c'est...
C'est la rapidité.
C'est la rapidité.
Ouais.
Et le coût.
Donc ça, c'est vrai pour les données physiques,
mais il y a aussi,
donc, plein de modèles statistiques
que les gens ont fait
au fur et à mesure des années
pour des problèmes structurés.
Et en fait, c'est ce qu'on appelle
des modèles à variable attente,
en gros, où tu dis,
ben, si je vends ces fameuses pizzas,
je vais dire, en fait,
il y a une variable attente
que j'observe pas, qui est...
Ah, il y a un événement à côté,
il y a du marketing,
et tout ce truc-là.
Et donc ces modèles-là,
en fait, on sait les écrire.
C'est assez difficile de les fiter
sur des vraies données.
Et c'est très manuel,
parce que tu vas, justement,
littéralement, il y a quelqu'un qui spécifie
quelles sont les variables attentes, etc.
Mais ça, c'est un peu une des promesses
de justement des LLM, etc.
C'est que tu vas pouvoir,
ou même juste de la randomness en général,
c'est que tu peux générer
des processus génératifs
comme ça très structurés,
programmatiquement,
et potentiellement
en conditionnant sur ce que c'est que le problème.
Donc mettons, si je dis un LLM aujourd'hui,
génère-moi du code
pour simuler un restaurant de pizza.
Ben, en fait, il va pas être forcément trop mauvais.
Et à partir de là,
tu peux à nouveau générer
plein de données synthétiques.
Donc des millions de, je sais pas,
de magasins de pizza qui n'existent pas,
mais qui sont très structurés,
qui ont des structures causales, etc.
Qui sont peut-être pas vrais,
mais qui sont peut-être pas complètement déconnantes.
Et à partir de là,
tu peux entraîner un modèle.
Si en simple, on résume, on peut dire
que tu utilises par exemple le modèle du monde
qui est contenu dans le modèle de langue.
Exact.
Pour générer de la données via du code.
Qui est cohérente.
Et donc, si tu fais un peu de tout ça en même temps,
tu peux arriver à générer de la données synthétiques
qui est vraiment intéressante.
Et le niveau extrême,
c'est de entraîner ces modèles-là dont je parle,
100% sur la données synthétiques.
Et ça, ça ouvre des perspectives de dingue,
parce qu'il n'y a pas de problème de fuite d'information.
Si c'est que générer,
enfin, si c'est qu'entraîner sur la données synthétiques,
il n'y a pas le...
Ah mais tu savais en fait qu'il y avait la crise de 2008, tu vois.
Mais du coup, quand on se dit,
enfin, tu vois, moi, je regarde les données clients
et je regarde ce qu'ils font aujourd'hui comme forecast, etc.
Et c'est dingue ce qu'on peut faire
et le potentiel de cette tech.
Mais là où les gens en sont, c'est un truc de ouf, tu vois.
Il y a des chaînes qui sont des...
Enfin, des business qui font plusieurs milliards de CA
ou voir certains milliards de profits, tu vois.
Ou en fait, ils ont encore, lors de grandeur,
c'est 60 à 90% d'erreurs sur leur prédiction,
sur ce qu'ils vont vendre à l'échelle du magasin,
à l'échelle du produit, tu vois.
Je parlais avec les clients qui étaient assez spécialisés
dans les trends justement de fringues,
qui disaient, lors de grandeur,
c'est 50% des fringues sont vendues à rabais.
Alors évidemment, c'est un problème hyper difficile
parce que les saisons en général, c'est prédit à l'avance.
Donc ça veut dire que t'es obligé de faire
une seule prédiction pour toute la saison neuf mois avant.
Combien tu en vends ?
Bon, tu te plantes de 30%.
Ça part soit à la baine, soit en recyclable, on espère,
soit en promotion à la fin, quoi.
Quand même, beaucoup de ces business-là,
c'est pas des business à forte marge.
Et donc, c'est des business qui sont un peu en mode survie,
tout le temps.
Ce qui fait d'ailleurs qu'ils ne traitent pas forcément
bien leurs employés,
qui ne sont pas forcément ouf d'un point de vue écolos, etc.
Et du coup, si tu peux en fait faire en sorte que
juste c'est mieux géré, en entrant toute cette voie.
C'est là, enfin, l'impact est monstrueux, quoi.
Et en plus, c'est plutôt cool.
Si vous avez apprécié cette vidéo
et que vous n'avez toujours pas vu notre interview
de Arthur Manch, le CEO de Mistral,
je peux que vous conseiller très vivement d'aller la voir.
Elle est loin d'être obsolète
puisque on revient sur l'origine de la boîte
et comment ils s'y sont pris pour choquer le monde entier
avec leur premier modèle.
C'était dans cette vidéo.