Spécial Time Series

Durée: None

Date de sortie: 16/02/2024

Voir sur Youtube Animé par Steven LEROUX @GwinizDuavec la participation de : - Pierre Zemb @PierreZ- Xavier Marin @XavMarin- Mathias Herberts @herberts Épisode enregistré le 12 janvier 2024 👋 Venez discuter avec nous sur @clever_cloudFR pour nous dire ce que vous avez pensé de ce nouvel épisode. ➡️ Pour découvrir ou réécouter d’anciens épisodes c’est par ici ! Chapitrage et Liens 00:00:00 Introduction et présentation des participants 00:02:09 Warp 10 quesako ? 00:06:30 Warp10 3.0 et la migration from HBase to FoundationCardinalité "infinie" 00:55:00 Momentum 2015-2020, semble se calmerEst-ce que le monde n’est pas en train de changer dans le monde de la time series ? 01:01:16 La fin d’influx OSS https://www.influxdata.com/blog/the-plan-for-influxdb-3-0-open-source/Le Bullshit AI sur les DB (KDB, Timescale vector…) 01:17:40 De la durabilité des architectures fondées sur des technos portées par des boîtes tech (ou pas que) financées par des VC… 01:32:38 outils de visualisation : Grafana Discovery 01:40:15 Warpscript debugger 01:47:27 : Musique de fin https://www.youtube.com/watch?v=vA7E0OX-QHU

Bonjour et bienvenue dans ce nouvel épisode de Message à caractère informatique épisode
numéro 102. Nous sommes le 8 février 2024 et aujourd'hui je suis accompagné de gens
merveilleux tel que Pierre Zem bonjour Pierre Zem. Salut Steven. Est-ce qu'on présente rapidement ?
Ouais bah écoute moi je m'appelle Pierre je travaille à Clever en tant qu'ingénieur d'ATA.
Et nous sommes également avec le talentieux néanmoins Zipos Xavier Marin. Bonjour. Salut Steven.
Je suis pas demandé mais tu fais toujours de la musique d'ailleurs. Je vais prendre ta question.
Plutôt. Alors pour ceux qui sont plutôt en podcast audio, Xavier s'est détourné à laisser
entrevoir derrière sa chèche et il y a une jolie collection d'une dizaine de grâtes c'est ça ?
Un peu moins. Et nous avons le très grand, n'est ce pas, Money Rotten et donc derrière ce cache
Mathias Herbert. Bonjour Mathias. Bonjour Steven. Bonjour Pierre. Bonjour Xavier. Ça va bien.
Et nous sommes aujourd'hui en compagnie de moi même Steven Loroux pour vous accompagner
toujours cityo chez Clever Cloud. Les plans n'ont pas changé. Donc aujourd'hui nous avons un
épisode où on va parler un peu de time series, un peu d'autres choses, un peu d'écosystèmes de
boîte, un peu du scope du domaine qui a tendance à évoluer un petit peu. On va d'abord revenir
sur une migration qu'on a qu'on a effectuée, alors côté Clever et côté SENS. Avant de parler
de migration, on va un peu planter le décor puisqu'on va parler d'une migration Warten, Warten,
Kezako. Warten Kezako. Alors Warten c'est un ensemble d'outils pour gérer et pour analyser
des données de type série temporelle, donc des données issus de capteurs. C'est le nom aussi
qu'on donne à la partie base de données de série temporelle de cet ensemble d'outils. Mais c'est
vraiment un ensemble d'outils. C'est un projet open source qu'on a démarré en 2013 chez SENS.
SENS qui est la société que j'ai co-fondée cette année-là. Et c'est un produit qui répond à des
problématiques généralement de gestion et d'analyse de données de série temporelle puisque on
va beaucoup plus loin que beaucoup de solutions quand il s'agit d'extraire la valeur de ces dates
à l'heure. Et on a un certain nombre d'utilisateurs dans des domaines très variés. Le point commun de
ces utilisateurs c'est qu'ils ont des série temporelles. Donc ça peut être du monitoring comme ce
que vous faites vous. Mais on a aussi des gens qui mettent des données d'énergie, des données d'avion,
des données de navire. Tout un tas de choses. Le point commun c'est que c'est des données qui sont
généralement rodatées. En tout cas 99% des cas de usage. Oui tu parles d'un ensemble d'outils
effectivement. Et aujourd'hui vous êtes éditeur du coup de Warp 10 pour le franciser. Je pense que
les amateurs de Star Trek y verront le clin d'oeil. Et effectivement sur warp10.io le site web tu vois
effectivement la petite cartographie où on voit le côté écosystème je trouve. Ça transparaît bien
sur le fait que tu as effectivement la librairie de manipulation de données mais tu as le côté
stockage, le côté visualisation etc. Et je sais que historiquement nous c'est effectivement ce
qu'on utilise parce que c'est pas juste une time series DB dans laquelle tu as entre guillemets
t'es laissé pour compte et tu dois tout reconstruire toi même mais t'es pris en charge dans un
écosystème qui te permet de résoudre tes enjeux de métier. Et moi c'est ça que j'ai toujours
apprécié avec Warp c'est que à chaque fois que tu avais un truc et que tu dis c'est le vaisseau qui
démarre. C'est le guitare. Et donc je me dis à chaque fois que tu as un enjeu métier sur un truc un
peu toujours les côtés edge case sur lesquels c'est pas dans le standard c'est pas des trucs de
monitoring et ben tu as toujours une solution que tu trouves dans warp ou alors on l'a contribué
historiquement tu vois l'estactivity par exemple c'était un truc où on avait besoin de se dire
dans l'index ce serait bien d'être capable de récupérer uniquement les séries mais qui sont
vivantes depuis tant de temps et ben du coup en fait on a pu faire ça avec warp et tu as pas
qu'est truc comme ça qui peut être fait je sais que quand tu veux calculer par exemple de la
licence dans le mois mais en fait t'as pas eu de changement potentiellement depuis trois mois et
tu veux dire ben quelle est la licence actuelle que j'utilise dans le mois en prenant la licence max
si tu as quelqu'un qui était metto en xl et qui passe en l le changement a pu être fait il y a
trois mois mais tu as besoin de savoir où il en est aujourd'hui et donc tu as besoin de naviguer dans
des notions de time series qui sont des notions avec des enjeux de métier et qui sortent vraiment
des use case purement monitoring pour lesquels aujourd'hui c'est prometteus par exemple qui
a été identifié comme solution un peu en leadership sur le marché mais enfin passer le
monitoring en fait solution là ça arrête très très vite en capacité et c'est là où derrière
dans tes enjeux métier t'as besoin d'aller potentiellement au bout des choses quoi donc très
bon intro de warp ten merci matias et ce qui nous permet de d'aller un peu vers le sujet de la
dernière version n'est ce pas la suivi la version warp ten 3 qui en dehors de certaines
nouveautés qu'on peut d'ailleurs évoquer avait un enjeu majeur qui était effectivement le changement
de son baccadre de stockage ouais alors juste pour replanter un peu le décor en warp ten à plusieurs
versions alors plusieurs on va dire plusieurs types de déploiements plutôt que version pour
pas confondre le numéro de version avec le type de déploiement donc on a on a des déploiements
qui peuvent se faire sur un seul serveur donc avec une version qui s'appelle standalone parce
qu'elle est toute seule elle a pas de dépendance elle est facile à déployer et puis elle tourne
très bien quand les besoins augmentent un petit peu plus on peut avoir une version standalone
avec de la réplication donc on a un mécanisme de réplication qui permet d'avoir des topologies
dans lesquelles on a plusieurs instances standalone qui vont qui vont se parler et puis on avait
une version on a toujours une version qu'on appelle la version distribuée qui est une version qui va
plutôt ciblé des déploiements sur lesquels il y a des volumétries importantes à très
importantes voire très très très très très très importante et qui va permettre à la fois d'ingérer
beaucoup de données par seconde et puis d'historiser des données de façon conséquente alors qu'est-ce
que ça veut dire beaucoup à la seconde parce qu'on parle de plusieurs millions de mesures par
seconde en flux soutenu qu'est-ce qu'on entend par des historiques importants ben c'est plusieurs
centaines de milliers de milliards de mesures qu'on va stocker et donc pour adresser ce cas
d'usage là cette version distribuée historiquement on utilisait h base pour plein de raisons des
raisons qui tiennent à l'historique que moi j'avais pu avoir avec h base puisque j'ai déployé le premier
cluster en gros en prod en Europe qui utilisait h base donc ça c'était une expérience qui fait
que je connaissais bien je connaissais bien la technique et puis le modèle de données d'h
base se prêtait bien à stocker des séries temporelles puisque en gros on avait des clés
valeurs ordonnées qui étaient finalement le modèle générique géré par h base qui était
découpé dans des petits morceaux qu'on appelait des régions et qui pouvait se scaler en rajoutant
des machines et qui pouvait chacun gérer un ensemble de régions donc la version de warden
depuis sa création en 2013 elle la version distribuée elle s'appuyer sur h base ça
puis aussi sur kfk pour faire communiquer des trucs entre eux mais le stockage c'était h base
et ça marche le marché très très bien le monde on en parlera après mais est un monde en mouvement
donc donc à un moment donné on a fait le constat que h base même si ça marche très très bien ça
n'a plus nécessairement la faveur de on va dire de l'industrie au sens large et il y a quelque
part de moins en moins de gens qui sont attirés ou en tout cas qui se sentent à l'aise avec le
déploiement de cette technola et donc nous on voyait ça de plus en plus comme étant un peu
un frein à l'adoption de la version distribuée de warden et on trouvait ça dommage donc on s'était
mis en quête d'un remplissant pour pour h base pour être en capacité toujours d'offrir une version
distribuée et donc d'adresser ses ces volumétries et ses flux d'ingestion élevée mais avec un
stockage qui n'était pas fait sur une techno que certains qualifient de vieillissante en tout cas
d'abandonner ou d'oublier ou de délaisser je sais pas comment on pourrait dire mais sur une
techno un peu plus un peu plus récente et puis on s'est rendu compte qu'il n'y avait pas des masses
de techno qui permettaient d'offrir finalement le même modèle qu'un h base et on a identifié
foundation db comme étant l'une d'entre elles qu'est ce que t'avais évalué d'autres par curiosité alors
on avait regardé cassandra parce que à un moment donné cassandra avait un partitionneur qui s'appelait
bite order preserving partitionneur donc qui permettait d'avoir finalement un cluster cassandra dans
lesquels on pouvait avoir une répartition des espaces de clé qui était assez performant quand on
faisait des scans dessus ça en fait avec l'avènement de cql ça a été abandonné ça a été je ne
sais plus dans quelle version mais enfin ça a été sorti de cassandra donc il n'y avait plus cette
cassandra avec avec juste du cql pour accéder aux données mais on aurait eu des performances qui
étaient qui étaient moins moins bonnes que celle qu'on avait avec le bite order preserving partitionneur
donc ça c'était une solution qu'on avait vraiment imaginé à un moment donné comme étant un candidat
au remplacement d'hage base alors il y aurait sans doute eu d'autres problèmes si on l'avait
choisi mais mais en tout cas ça avait été ça avait été envisager à un moment donné et puis
après bah non il n'y a aucune autre qui nous a vraiment convaincu parce que à chaque fois il manquait des
petites choses ou ce que tu avais besoin alors je vais faire les le truc principal dont on avait
besoin c'était d'avoir un espace de clé ordonné sur lequel on peut faire des scans en avant et en
arrière t'as eu c'est pas ça non non non non il n'y en a pas beaucoup il n'y en a vraiment pas
beaucoup en fait des scans avant on va en trouver quelques uns des scans arrière non ça y en a pas
et justement pour les cas d'usage que t'évoquait comme retrouver la licence qui a été changé il y a
trois mois bah il faut qu'on ait des scans arrière tu veux regarder une fenêtre de temps et tu dis
bah j'ai besoin du point précédent par rapport à cette fenêtre de temps donc effectivement
tu positionnes un curseur dans ton range de clé en disant les scans un dans l'autre sens quoi
ouais et ça c'est bien ça c'est assez peu commun en fait et fin de déchire des vénements
pratiques ouais bah oui oui on a besoin mais je sais que nous dans le calcul de facturation tu
vois c'est des trucs qu'on utilise dans le monde industriel c'est hyper utile aussi parce que ça
c'est courant en fait on a on a des décades d'usage dans le monde industriel dans lequel on a des
capteurs à très haute fréquence et puis pour une raffinerie par exemple tu vas monitorer le process
de raffinage avec des capteurs qui sont haute fréquence plusieurs plusieurs centaines de verts
puis à côté de ça tu as une vanne qui va être ouvert et fermée uniquement quand il y a des opérations
de maintenance une fois tous les trois mois quoi sauf que pour savoir comment marche ta raffinerie
faut que tu connaisses l'état des capteurs à 100 hertz et la position de la vanne et le statut de la
vanne et il se trouve que la yachtie c'est quand même pas mal une histoire de statut quoi
un petit peu un petit peu donc il fallait il fallait un back end qui est ses caractéristiques
là et puis on voulait aussi un truc qui ne soit pas perçu comme complexe à opérer comme
pouvait l'être h base et h base de bas pour en débattre longtemps mais h base est perçu comme
étant très complexe parce qu'il y a une dépendance à deux peut être donc il y a des piles qui
il y a des couches qui s'empilent et évidemment bah tout de suite dès qu'on met le doigt dedans ça
oblige à faire des infrastructures un peu plus un peu plus bien après le truc c'est un peu comme
c'est pour le big data c'est qu'un moment donné t'avais des gens qui mettaient des clusters
à double de trois neufs parce que c'était la mode et qu'ils disaient ouah c'est quand même pas aussi
simple qu'un poste gré ce bah ouais mais en fait c'est peut-être pas bien du coup tu vas finir
et effectivement le le h base n'est pas gratuit en termes d'opération par contre c'était sans doute
c'est sans doute encore le seul qui te permet d'avoir ce genre de clé valeur à une échelle
démodurée quoi enfin ça a été design pour pour stocker le référencement des des crawlers
de du web et ça pour moi ça tient cette promesse là c'est c'est vraiment un qui value store
distribué qui est massivement scalable pas juste scalable mais massivement scalable au bénéfice
de l'écosystème à double c'est à dire que quand on est dans une démarche à double on a une
démarche de traitement de la donnée et donc le fait pour h base de reposer sur hdfs il y avait
aussi cette notion de d'être capable de paralyser les traitements de pouvoir réutiliser des données
transactionnelles du côté h base mais avec des batchs de l'autre côté qui peuvent tirer partie
de tout ce qui est pgm pas là ou hi il vous genre de trucs donc ça fait partie d'un écosystème qui
est effectivement très riche qui vient pas gratuitement parce qu'effectivement le massivement
scalable c'est pas gratuit c'est complexe ça c'est une note pour les futurs wannabe managers qui veulent
que l'argent soit en bordée en deux semaines mais mais à côté de ça je trouve qu'il y a eu
quand même un peu d'erreur de la communauté h base à gérer son projet c'est à dire que c'est pas
simple je dis pas que je ferais mieux mais il y a un moment donné je sais que pierre ici présent
a essayé d'aller faire des paires dedans on n'a pas essayé d'ailleurs à été comité en h base mais
que il y a un moment c'est à dire que tu avais la branche 1 la branche 2 la branche 3 pas compatible
entre elles les trois vivants parallèles et que la moindre paire que tu devais faire devait rentrer
dans les trois et c'était pas le même cas à chaque fois quoi et disons c'était hyper coûteux
enfin c'était ingérable en vrai disons que tes stats de comites sont intéressantes du coup tu fais
tu fais un patch sur x branche malheureusement pour un db c'est que une étoile en fait en fait je
pense que l'écosystème à d'où pas à quand même quelques particularités c'est que
l'objectif c'était quand même de faire des systèmes qui qui opérait à très très grande échelle et
dure dans le temps et du coup tu n'es pas trop à jour facilement alors ça ça d'une part ouais
mais surtout tu t'adresses pas à des milliers d'utilisateurs potentiels c'est à dire que les
gens qui effectivement vont avoir du h base à grande échelle il n'y en a pas des masses alors
petit à parté parce que on en parlera sans doute tout à l'heure mais il y a encore un
utilisateur d'âge base et pas des moindres dans le monde qui est étonnamment apple parce
pourquoi parce que en fait tout ce qui concerne siri aujourd'hui et pas dans foundation db qui
appartient à peu mais toujours dans h base donc c'est quand même que le produit tient ses promesses
parce que voilà il y en a pas qu'il y a d'iPhone ou de Mac sur la planète et donc pour revenir à
ce que je disais c'est que les tout ce qui tourne autour d'adoupe et de l'écosystème adoupe en
général c'est généralement des gros déploiements donc qui sont dans des grosses boîtes et donc
l'écosystème adoupe après 2010 donc 2010 qui correspond à la création d'ortonworks
l'écosystème adoupe a beaucoup été porté par des par des sociétés commerciales en l'occurrence
ortonworks cloud era et puis ibm aussi un peu tremper là dedans et puis il y avait de trois autres
qui s'y sont essayé et donc il y a eu beaucoup d'engouement parce que il y avait de l'argent
qui était élevé et puis il y a un certain nombre de développeurs qui travaillaient sur ces différents
produits autour d'adoupe qui ont rejoint ces quelques boîtes sauf que et on en reparlera tout
à l'heure bah à un moment donné ces boîtes ont eu des choix à faire des arbitrages à faire
sur leur positionnement et il y a certains pans de l'écosystème adoupe qui ont plus bénéficié
finalement des délargesses de ces boîtes là et qui sont devenus des projets un peu abandonnés
pourquoi parce que les comiteurs qui maintenant étaient employés de ces boîtes là bah ils ont
été remis sur d'autres projets et ils ont plus eu le temps pour comiter sur autre chose et c'est
ça que t'as vu en fait plein de projets être plus ou moins là encore délaissé abandonné parce
que l'acteur qui les avait porté à bout de bras pendant quelques années bah il a dit bah non
maintenant ça correspond plus à mon objectif commercial et donc je vais demander aux gars
qui travaillaient là dessus de plus travailler là dessus et à je base a été clairement la
nana parce que ouais l'ars george qui était qui avait rejoint clavdera je crois et qui était
un des comiteurs h base il a quand même écrit un bouquin entier de plus de 600 pages sur h base 2
et le bouquin est finalement jamais sorti parce que aurélie a dit non mais en fait personne va jamais
utiliser h base 2 puisque clavdera croit plus vraiment à h base 2 quoi mais clavdera ils étaient
se pensent sort de coudou oui qui était un concurrent à h base quoi ouais non mais c'est
un moment donné c'est la dynamique qui a eu c'était ça et comme c'était pas des projets
qui pouvaient être portés par des gens dans leurs coins parce que ces gens là qu'ils n'aient pas du tout
des choses à cette échelle là et ben ils ont perdu leur dynamique et puis ils se sont essoufflé
et puis les gens ont sont passé à autre chose quoi à la fin t'avais plus que hdfs qui était le
le socle un peu commun à tout ça je m'ai ma peur de côté mais clavdera orton et d'autres
éventuels distrib t'avais t'avais vraiment que hdfs qui était commun quoi tout le reste par-dessus
était vraiment des stacks qui s'était monté de a à z et ouais ils ont manqué de collaboration je
pense après il faut aussi si on refait un peu l'histoire mais c'est une époque où quand à
l'époque les gens ont des vrais enjeux de manipulation de données et il y a assez peu de
choses il y a assez peu d'équivalents pour pour répondre à ces enjeux là à ce moment là c'est
pour ça qu'en fait les gens ils vont beaucoup parce que tu as des nouveaux outils tu peux faire de la
data et tu peux faire des choses je trouve que ça aussi bougeait un peu l'écosystème des autres db
des autres boîtes qui sont un peu remises en question on dit bon attendant peut-être que tu
as au lieu d'avoir un cluster de trois nœuds à doupes est ce qu'on pourrait pas améliorer
deux trois trucs pour optimiser soit le stockage soit le traitement soit je ne sais quoi et faciliter
un peu ça quoi mais néanmoins puis après tu as eu spark aussi qui s'est ajouté tu vois et spark
lui avait une capacité à ne plus dépendre de hdfs mais de l'object storage et du coup quelque
part dans ta construction de workflow de donner en étant sur le pivot de l'object storage qui
avait une quitte en train de devenir doucement un petit standard aussi mais un peu plus orienté cloud
bah tout ça fait qu'effectivement l'enjeu à doup je pense qu'il reste d'actualité quand
une stratégie d'entreprise très orientée de data ça reste quelque chose qui peut être pertinent
aujourd'hui alors faut vraiment des enjeux parce que tu m'expliques ou spark mais mais moi j'ai
jamais trouvé un file système qui était aussi scalable plus hdfs et un kb aussi scalable plus
hbase non je pense qu'il n'y en a pas après je pense qu'ils se sont heurtés fin clavdera et
orton work c'est les autres tu mentionnais ma perte en est effectivement un troisième qu'il y avait
une stratégie un peu différente toujours dans le même dans le même écosystème mais ils se sont un
peu heurtés à la réalité des organisations dans les boîtes c'est à dire que l'approche
l'approche dans lesquels à doux peut vraiment briller c'est des c'est des boîtes dans lesquelles
finalement tu mets à plat la data comme étant le sop quand il est transverse qui fonctionne
exactement alors que leurs clients finalement c'était que des cido côte à côte quoi et donc
il n'y a jamais eu d'approche dans lesquels tu avais des gros clusters qui étaient déployés
parce que c'était de la data et qu'à cette époque là les gens qui faisaient de la data c'était
plutôt les équipes base de données et ben la réflexion c'était bon ben moi je veux bien mais
si c'est chez moi sauf qu'en vrai c'était pas non plus une base de données tu vois il y a vraiment
un enjeu de construction des choses de manière transverse et ouais je l'ai vu comme toi je crois
encore là où on l'a vu ensemble je pense que c'était pas là où on l'a vu tous les quatre d'ailleurs
c'était pas c'était pas le pire des c'était pas le pire des endroits mais il y a d'autres
endroits effectivement où ça n'a jamais pris parce que les plus gros clusters que les gens ont
déployé ils faisaient 15 nœuds et que c'est pas c'est pas là que c'est pas là qu'est le sweet spot
d'efficacité à la fois financier les techniques de ce genre de trucs donc voilà donc il y a eu de
donc on a fait un choix on en a discuté ensemble d'ailleurs devant un excellent couscous
estek frites à steven quelle souvenir quelle souvenir heureusement la discussion était
meilleure que ce qu'on a mangé mais je sais pas si je l'ai pas crué sous ma chaussure à un moment
ou j'ai vu une nouvelle semaine le coup je me suis dit que c'était comme quoi c'était pas un
obstacle à ce que ça finalement ça marche mais il faut en durer des choses quand on fait des
choix stratégiques et donc en fait c'était un choix qui était quasiment assumé quand on s'était
parlé on avait discuté en juillet 2022 donc c'était quelque chose qui était en réflexion
chez nous depuis un paquet de temps et on avait échangé parce que je sais que la carte réfléchissait
aussi à la partie intégration de fondation db à l'époque et donc voilà on a eu ces discussions
pour que pour que je sache un peu si si vous c'était du sérieux ou pas du sérieux est ce que
vous allez y aller ou pas histoire que finalement on se retrouve pas tout seul à faire ces choix
là et être un peu un peu isolé en termes de choix technologie d'entraide de superbe
exactement donc donc donc c'est un choix qui est à ce moment là et enfin est quasiment finalisé
avec bah quand même une identification d'un certain nombre de soucis c'est à dire que fondation db
c'est bien ça marche c'est plus simple donc ça coche un certain nombre de cases alors c'est
transactionnel c'est mieux mais ça ne fait pas sans coup voilà donc disons que ça amène un certain
nombre de contraintes qui sont des contraintes qu'on n'avait pas sur hbase et qui sont des
contraintes autour desquelles il a fallu un peu le voyer quoi n'est pas forcément le truc le plus
mais quelque part qui était annoncé c'est à dire que les choses et c'est clair c'est transactionnel
mais alors une des contraintes par exemple c'est que ta transaction doit être doit être faite dans
une fenêtre de cinq secondes quoi donc tu peux pas avoir d'un scan à se caler ou alors il faut venir
bouger à 9 7 pour dire ok bah j'ai fait cinq je fais les cinq suivantes etc donc c'est quelque
chose qui doit être géré mais qui ne peut pas être gratuit comme hbase ou là tu positionnées
donc ça ça a été des choses sur lesquelles il a fallu un peu un peu s'adapter donc il y avait
effectivement cette limite de cinq secondes il y a aussi des limites de taille de taille
on peut pas faire plus de dix méga il y a une limite sur la taille des valeurs qui peuvent
pas faire plus de 100 kilos et puis c'est à peu près tout en fait ça vient du fait que c'est pas
une base de données d'analytique à la base et quand même voir pas un usage un peu plus analytique
et du coup je pense que ça vient notamment et cinq secondes ouais on s'est débrouillé
j'ai même pas encore eu le temps d'aller lire le code de cette partie là tout doux quelque part
non non en fait c'est assez simple c'est qu'on fait un scan et puis si on se fait chouter parce que
fondation DB nous dit non mais dit donc ça fait tout le temps tout tout le temps voilà tout
l'angle ça fait trop longtemps que t'as commencé ton scan tu en démarres non bah tu en démarres un
nouveau scan et puis tu dis mais où est ce que je m'ai arrêté déjà je me suis arrêté là
bah ok je prends la clé d'amant et donc on s'en est sorti on s'en est sorti comme ça et puis sur
l'écriture on a fait aussi deux trois deux trois adaptations pour que ce soit pas un problème cette
limite des petits méga et que le problème ça marche assez bien ouais ce qu'on avait identifié
quand même qui était des améliorations notables par rapport à l'aide de baï c'était le côté
opérationnel je peux dire magique mais mais très facilité c'est à dire que à ce base à une
scalabilité qui fait qu'il découpe ses réjoues un peu tout seul et il s'organise par contre à l'usage
par suppression oui parce que on supporte le gdp à voir on en parlait après et bien tu peux
avoir des régions quelque part qui à un moment donné deviennent un peu vide ou discontinue etc
et quand tu as besoin de réorganiser ben des fois il faut refusionner des régions pour ne pas
avoir une fuite en avant du nombre de régions donc tout ce qui est l'aspect opérationnel
la spécalabilité etc dans hdb ça demandait quand même pas mal d'outillage pas mal de et on l'avait
fait enfin avec l'écrit deux fois ce truc là dans deux points différents mais on avait fait ça
tu vois pour justement être capable de lire à je base ces log comprendre ce qu'ils faisaient
elle était sympa des fois ils te disaient quand même à peu près ce qu'ils faisaient mais pour aller le
et donc soit en termes de gestion des régions soit en termes de de rationalisation pour dire ok
maintenant comment est ce qu'il faut qu'on réorgue et tu t'es obligé de faire ça en plusieurs
passes parce qu'en fait des fois il faut être stratégie de de recompaction de tes régions
etc et et pour trouver quels sont les bonnes régions à fusionner mais tu es obligé de faire
des aigus aux multifacions donc c'est pas simple il y a aussi des fois où clairement nous on avait
temps ça le chargait un peu bien et des stacks en java bon bah du coup j'essaie donc on est devenus
quand même pas mal des experts en jesse à ce moment là mais bon bon non malent on arrivait à
le faire tourner mais ouais ça nous a fait un coup opérationnel quand même pas gratos gratos
oui c'est ça c'est tout pour tu compar à attend je suis une jugeur quand tu compar à fondation
aujourd'hui globalement tu lui demande son état de santé et il te dit là je suis bien là ce serait
bien que tu m'ajoutes un peu de cpu là de la ram là sur le storage là je suis un peu stressé
là je suis bien et là sur le coordinateur je suis un peu moins bien tu ne devrais m'en ajouter des
rôles tu dis ok en fait il y a juste à t'écouter et puis on te répond et tout va bien quoi
non bah je vais juste te dire qu'en fait hedge base c'est vraiment un système où tu es obligé
d'accrocher dedans et d'aller vraiment comprendre intrinsèquement comment ça marche pour opérer
le truc c'est même pas pour y contribuer et c'est vraiment pour opérer t'es obligé d'aller
dip dive dedans et et pour l'opérer on va dire à grand échelle je sais plus combien de noeuds
ils faisaient je ne veux pas dire que je ne veux pas dire que fondation c'est magique au point que
à l'échelle des parisiennes elles ne peuvent pas regarder comprendre comment ça marche je pense
que je pense que tu as un peu moins de magique disons qu'on va dire que la conf pour débarrasser sur
un cluster qui a un peu de data c'est il n'y a pas beaucoup de confrits c'est on va dire on peut
partir on peut partir assez facilement tout ce qu'on a mais après voilà il n'y a jamais de solution
magique de toute façon mais mais c'est vrai que là on a un truc qui est beaucoup plus facile à piloter
et qui se fait avec moins de gens parce que en fait hedge base je pense que ça peut être vraiment
très bien mais il faut une équipe de cinq personnes derrière pour vraiment arriver à une infra
massive mais qui tourne de qualité bien géré avec le bon le bon niveau d'outillage etc quoi
après je pense que ce qui est aussi intéressant dans les cas de fondation db alors au niveau de
la scalabilité je suis pas certain que fondation db aille aussi loin que la oupelle et h base
je pense pas non plus je pense que des limites un peu avant je pense pas en tout cas la limite
annoncée par par les gens qui font fin de chen db c'est plutôt mille process et donc mille
process et quelques centaines de terra si je me souviens bien ou alors ça c'est des anciens
chiffres les nouveaux chiffres ils sont en train de travailler sur un nouveau système mais en fait
leur problème de fondamentale derrière ça limite de cent terra c'est qu'ils sont pas capables de
de simuler des gros clusters avec beaucoup de data et du coup il y a même des paires en cours je
t'as tué voir matias tu sais pour générer de la data rendable donc donc oui donc la scalabilité
on sait pas mais le point qui est hyper positif que tu que tu viens d'évoquer c'est la simulation
dans l'environnement de build c'est que c'est un système distribué donc il peut y avoir plein de
scénaries possibles de défaillances des nœuds des réseaux des disques des machins enfin tout ce
que tu peux imaginer et tous ces scénaries en fait ils sont pris en compte dans le dans le build
au travers d'une simulation qui est faite de toutes ces défaillances et donc foundation db quand
ils réalisent une version et ben elle est passée par tous ces trucs là et donc tous les cas que tu
peux trouver toi en prod et ben on sait comment ça se comporte en fait parce que parce que ça a été
valide j'ai même appris que c'est pire que ça c'est qu'en fait le cycle de release qu'ils ont c'est
prode quand c'est à feu de bouc on est tout ok on réalise ça change un peu ça change un peu
mais en tout cas tu peux y aller de façon beaucoup plus certaine parce que quand on faisait des tests
avec pierre sur le cluster là que vous nous aviez mis à dispo pour pour valider les trucs on a fait
plein de tests sur lesquels on arrêtait le réseau c'était marré c'était fun alors nous on le refait
régulièrement on a un cas oui le process le jour il ya david qui a je lui dis ouah tu peux des
branches du truc machin il a arraché un disque et ben nickel ouais donc ça c'est bien et puis
elle était pas prêt à moi j'ai rigolé parce que j'étais là ça c'est bizarre d'être une machine
et puis le cluster il est là bon ça va nickel je réplique tranquille alors qu'on nous avait raché le
disque dur physiquement je sais pas si tu te souviens t'as raché un disque à hache base
oui t'es moins serein tout de suite si t'en arrache qu'un ça va mais si tu commences à en avoir un
deuxième qui s'en va là ça potentiellement ça peut craindre donc ça ça c'est quand même un truc
qui permet d'être hyper serein effectivement au niveau de l'ops et puis avec Xavier on a fait des
dashboards sur fin de shunt db parce qu'en fait il ya beaucoup de métriques qui sont remontés par
fin de shunt db nativement et ça c'est hyper agréable aussi c'est que le truc t'expose déjà
vachement de l'indication d'infos sur son comportement interne sur un grand service on a open
sourcé un connecteur de métriques qui va tu qui prend toutes les métriques et on est une macro
warden aussi qui fait ça oui il ya une macro warden avec une capacité et tout ouais et les
dashboards qui vont avec les dashboards qui vont avec après pour revenir pour juste sur le simulateur
j'avoue que ça c'est un truc qui est super intéressant nous ce qu'on a fait en on utilise
fondation pour d'autres trucs et en fait ce qu'on a réussi à faire nous c'est prendre nos workloads
de notre code rust et on a réussi à l'incluer dans la simulation directement et donc ça c'est
pratique parce que quand on commence à développer des trucs un peu compliqués des problématiques de
base de données en fait au moins on est sûr qu'on est tolérant à la peine qu'on est pas mal de
choses et c'est vrai qu'on a une confiance absolue à la fois dans fondation et dans le code qu'on
écrit et ça c'est c'est incroyable donc je pense que rétrospectivement c'est un on est très
content d'avoir fait ce choix là le switch et puis d'ailleurs on a des gens qui qui sont
contents aussi parce que alors en même temps qu'on a fait ce choix de fondation en fait on a
inséré une nouvelle version enfin un nouveau type de déploiement dans ce qui est possible de faire
avec warthane qui est une version qui s'appelle standalone plus c'est à dire que c'est une version
qui est destinée à tourner sur un seul nœud mais qui stock ses données non plus dans des répertoires
organisées par level db et qui les stock dans foundation db et donc ça ça permet de choses ça
permet d'une part d'avoir un chemin de migration très facile après si on veut passer à une version
distribuée parce qu'on n'a pas besoin de migrer les données donc pour les gens qui savent qu'ils vont
potentiellement avoir une infra qui va grossir demain ben ça permet d'être serein sur le
justement ce qui sera ce qui sera à faire demain et puis en termes de suppression des données c'est
hyper rapide dans fondation db c'est incroyable voilà c'est quasi instantané alors que une version
standalone avec du level db ben c'est un peu plus laborieux parce que même si nous on a on a des
adones qui permettent de supprimer des fichiers sst qui sont les fichiers dans lesquels les vols db
stock s'est fichier ces données pardon ça reste quand même un processus dans lequel potentiellement
tu sais pas quand seront supprimés tes données physiquement du disque et donc tu sais pas quand
tu vas regagner la place qui te qui te manque là c'est les s m quoi voilà c'est le temps de phase
de compaction exactement donc donc voilà très en fait on est très content de de ce choix là et
puis après bah puis tu parlais de la version 3 et des ajouts il y a plein d'autres nouveautés qu'on a
intégré on est passé sur des versions récentes de jdk non sans mal d'ailleurs parce qu'en fait on
a identifié en fait on nous a toujours dit ouais on voudrait passer sur des versions récentes de
jdk etc donc on a fait le travail on avait pas mal de dépendance qui passait pas sur des versions
récentes de jdk pour des raisons très très bêtes d'ailleurs c'est à dire qu'on avait en gros deux
raisons pour lesquelles les les dépendances passaient pas une première qui était toute celle
qui utilisait unsafe et notamment unsafe sur des chaînes de caractère et en fait aura que la changer
la structure interne de la classe string dans java et donc tous les trucs qui utilisait unsafe pour
accéder aux tableaux de caractère qui existait dans la classe string marche plus parce que maintenant
il n'y a plus de tableaux de caractère c'est un tableau de byte et donc ça posait problème donc ça
c'était le premier de mémoire vous aviez une implem custom des strings non on avait une implem
qui s'appelait unsafe string qui permettait d'aller rapidement lire des trucs donc ça ça
marchait plus mais la limite le code qui était chez nous c'était facile à changer mais dans
des dépendances c'était plus compliqué et puis il y avait tout un autre pan de dépendance où là
elles étaient pas compatibles avec des jdk après la version 9 pour une raison toute bête c'est
que aura que la changer la façon dont les numéros de version sont structurés et donc jusqu'à
en 8 c'était 1.8 point quelque chose et à partir de la 9 c'était 9 quelque chose et en fait on
s'est rendu compte qu'il y avait plein de dépendances qui en premier truc disait ok dans
quelle version je suis je prends la chaîne de version je cherche le 1 point et ce qui après
l'autre point c'est la version et là il disait mais je n'ai pas trouvé un point donc il s'arrêtait
en disant ah bah non je sais pas où je suis donc on avait des trucs comme ça très très con et
d'ailleurs des releases de conformité en 1.9 point la figure toi que si tu vas voir le code de
warpten donc dans warpten on a intégré une bibliothèque de création d'image c'est le
processing et en fait au moment où on initialise processing je l'ai vu on change le numéro de
version en lui disant et tu es en 1 point quelque chose et m'embête pas on initialise et une fois
qu'il est revenu et que nous a dit c'est bon ça y est je suis prêt on rechange la version on
disait ok c'est bon pour tous les autres on a une nouvelle version machin pour bref donc on a fait
on a fait ce chemin là et maintenant on est compatible avec plein de versions sauf que on est
tombé sur un bug assez complexe dans le fin des 4 17 qui est toujours ouais il est fou et on
n'arrive même pas en fait à avoir une reproduction du bug mais en fait on a on a un bug il ya un bug
dans le gdk 17 dans open gdk et sans doute aussi son version en rachet en tout cas dans open gdk
il ya un bug sur le justin time compiler dans le gdk 17 et donc on a on a un bug qui se manifeste
de temps en temps sur certains déploiements quand le code est compilé par le justin time compiler
en fait il injecte du code foireux alors le problème c'est qu'il injecte du code foireux à un endroit
où le code peut pas être foireux chez nous qui est le calcul des identifiants des séries et donc on
a dû on a dû ajouter en fait un contournement donc il ya une config qui s'appelle la belle
zid pour un slow e mpl slow e mpl parce que en fait on utilise un mode de calcul de l'identifier
en des séries qui n'est pas sujet à ce bug du justin time compiler mais bon pour l'instant
alors on l'a pas en 11 on l'a pas en 20 on l'a pas en 21 et forcément j'étais en 17 mais en 17 par
compte ouais j'avais passé deux jours ça m'avait rendu fou parce que du coup moi j'avais mes mes
tests qui marchaient de temps en temps tu vois on faisait c'était avant qu'on fasse le déploiement
on était sur des machines virtuelles qu'on popait pour lancer des tests tu vois de la version
distribuée et puis tu vois des fois mon test j'étais mais c'est bizarre je faisais un test où
j'inserai un point et je vérifiais que la série existait je pouvais la récupérer directement
en viande cible et tu vois j'étais là tu vois c'est bizarre je n'ai pas basse série et puis tu
te connais sur la machine elle est où basse série ça m'a rendu fou alors tu sais tu éteins tout tu
rallumes et fais abacera par une en tout cas nous faire ce chemin de migration ça nous a quand même
faite une très intéressant et ça nous a permis de faire un peu de ménage
je coutais bien parce que on avait un peu abusé en termes de scalabilité
sur les métadonnées en fait on était au milliard de série unique parce qu'il est toujours la limite
en fait dans le temps série c'est toujours les gens qui se mettent un peu l'objectif de one billion
unique time series et puis en fait bah nous on y était quoi tu vois sans pas le même
c'est un peu l'astreinte tu vois de temps en temps ça demande un peu d'organisation des coupages
de charbing au niveau des méta mais en soi ça se fait quoi ah oui par contre on pouvait monter
à cette cardinalité là et donc voilà donc on a nous a permis énormément nettoyer la donnée de
la qualifier de savoir comment on a la main en fait sur les agents qui poussent les métriques en fait
nous ça nous a permis de faire un état de l'art de qu'est ce qu'on pousse ou comment est ce que
la donnée est intéressante à persister du coup on a pu faire ce travail enfin la migration nous a
permis de faire un travail de qualification de la donnée qui était plutôt intéressant et des
backup accesses aussi après sur la sur la cardinalité en fait le le souci de cardinalité il vient
surtout dans des cas d'usage comme l'observabilité pourquoi parce que alors la cardinalité qu'est
ce que c'est la cardinalité c'est le nombre de séries uniques qu'on va gérer et donc dans les
systèmes de séries temporelles on va avoir des métadonnées et parmi ces métadonnées on a
généralement un ensemble de clés valeurs qu'on appelle des labels comme c'est notre cas ou des tags
chez d'autres gens comme un flu dv par exemple et en fait la la combinatoire de ces clés valeurs
selon ce qu'on met dans les clés valeurs peut exploser et conduire à un nombre de combinaisons
qui est qui est exorbitant et dans les cas d'observabilité c'est assez souvent le cas puisque
on va retrouver soit des identifiants de vm soit des identifiants de spagne quand on fait des traces
ou des trucs comme ça donc des choses qui vont très très vite monter en combinatoire et qui vont
poser un problème de gestion donc en face avec un joli petit produit cartésien à la clé exactement
qui t'amène à le nombre de machines fois le nombre d'agui potentiel fois le contexte qui peut
bouger fois et en plus après souvent c'est là où tu tu tu apprends aussi à designer ton data model
c'est qu'au début tu mets un peu tout ce que tu veux dedans puis tu vois le truc que ça donne
oui bon soit je vais le contextualiser ça je le déduis de ça et tu en l'aies des trucs pour ça
reste un peu maîtrisable parce que sinon ça peut aller vite ouais c'est clair j'ai souvenir de gens
qui m'étaient les identifiants de conteneurs docker dans des séries temporaires donc on avait
une série qui était élabilisée par l'identifiant de conteneurs docker donc on avait un point pour la
pour le début enfin le démarrage de l'image un point pour le stop et donc il y avait des milliards
de séries à deux points donc ce qui n'était pas très efficace oui dans ces cas là tu réfléchis à
ton modèle et tu l'inverses éventuellement pour gérer ta cardinalité en tout cas ou
ou tu gères le cycle de vie de ta métadonnée oui tu veux que tu veux l'entier de ces infos là
à la granularité la plus fine par contre quand tu as buté le conteneur il faut effectivement que
tu es une sorte de Q dans laquelle tu dis cet Aigila il y a un moment il faut aller le nettoyer et dans
ce procès de nettoyage qui t'a mis réagréger cette donnée là avec d'autres pour garder l'intellégibilité
de la donnée pour pouvoir avoir un indicateur sur ton volume sur tes stats sur je ne sais quoi mais en
ayant plus les index absolus de ce conteneur qui n'existe plus quoi exactement parce que nous on
fait ça sur nos VMs parce que oui on se dévème comme des conteneurs alors j'aimerais te dire
qu'on a fini de gérer le bon cycle de finir ce que j'ai mais moi je vois ma RAM la RAM bc ton
dents morné sur nous on n'a qu'à faire le le forecast de la RAM mais on se dit oui oui
je le vois t'accueil ça m'est qui qu'on doit s'énerver dessus donc donc tout ça pour dire que
ouais la capacité d'une solution de time series à gérer le cycle de vie c'est fondamental c'est
à dire la capacité à effacer des données et des éous des métadonnées c'est un truc qui est hyper
important alors tu m'as tu mentionnais plutôt le rgpd comme étant une contrainte aussi à prendre
en compte donc oui c'est une des contraintes pour pour intégrer de la suppression efficace dans une
base de données de série temporelle mais la gestion du cycle de vie est notamment dans des
environnements dans lesquels il y a une grosse on va dire une grosse cardinalité des séries et puis
de certains de certaines méthodes data c'est aussi un truc fondamental et il faut absolument le
regarder parce que sinon on commence à déployer une solution et puis au moment le pire c'est à
dire quand on commence à plus avoir de RAM plus de machin plus de trucs on se rend compte que
on peut pas effacer et là c'est moins rigolo à la c'est moins rigolo ouais c'est moins rigolo donc
cette cardinalité infinie c'est un peu le serpent de merde du monde de la time series alors infini
personne n'y arrive forcément parce que je parlais mais il n'y a rien de ce que ce que c'est
pas comme tu sais les frites tout ce qui en parle c'est ceux qui en font le moins non non je pense
que tout le monde disons que chacun à sa cardinalité infinie on va dire ça comme ça et la cardinalité
infinie des uns bah et pas celle des autres et en fonction de ce qu'on veut faire croire aux gens on
va le présenter d'une façon ou d'une autre donc nous on a jamais dit qu'on pouvait atteindre
une cardinalité infinie parce que bien évidemment on peut pas mais bah vous êtes les exemples
typiques pour témoigner que warp 10 et encore c'était les warp 10 10 2.11 ou un truc comme ça
c'est 30 donc non c'est enfin c'était une version 2 et vous aviez atteint un milliard
effectivement comme tu disais Pierre donc nous on sait qu'on peut atteindre un milliard et plus
parce qu'on a des utilisateurs qui l'ont fait mais quand on lit les discours de tout un tas de
solutions de taille de série on s'imagine que on n'a pas de problème de cardinalité alors que
quand on creuse un peu en fait il y en a parce que les limites sont sont bel et bien là et que
il y a quelques cas idéaux dans lesquels on va pouvoir passer autre c'est oui et puis c'est pas
une fin en soi c'est pas parce que tu tiens le milliard de taille de série que tout va bien ça
dépend en fait comment tu as structuré les séries dedans et ça dépend quand tu vois si tu as
par exemple beaucoup le même class name mais les labels qui changent en fait le parcours dans
tes class name il va être infini quoi il va être long donc t'as aussi intérêt à avoir
une structuration de ton index derrière qui soit qui soit optimisé pour ton pour ton besoin quoi et
ça ça vient au discutant avec vous avec du support par exemple nous où on allant lire le code
si tu en es capable ou adapté quoi mais après il y a des trucs intéressants qu'on a fait
enfin il y a des fonctions dans notre bibliothèque de fonctions qui sont là parce que on a eu des
cas dans lesquels justement l'identification des séries auxquelles accéder était problématique
on a eu un cas notamment sur sur de la donnée aïe est donc la donnée de localisation de navire
on avait un cas d'usage sur lequel il fallait sélectionner des navires et potentiellement
il fallait sélectionner beaucoup de navires et donc sélectionner beaucoup de navires ça
veut dire sélectionner des navires dont un label particulier donc une meta donnée particulière
est un identifiant parmi un ensemble d'identifiants et donc les navires ont un numéro qui s'appelle
mmsi qui est un numéro unique des navires et donc quand tu veux sélectionner des séries qui suivent
le parcours d'un navire tu passais l'identifiant des mmsi que tu voulais voir sauf que l'utilisateur
en question ben il voulait récupérer quelque fois 600 000 traces de fin des traces pour 600
000 navires différents ce qui commençait à poser problème et donc ces 600 000 navires qu'est ce
qu'il faisait il faisait une expression régulière en disant le premier numéro ou le deuxième numéro
troisième numéro ou le machin ce qui est ce que frais n'importe qui qui doit faire une expression
régulière avec autant de autant de trucs puis il nous dit je comprends pas j'ai une requête il faut
40 minutes pour avoir le résultat quoi 40 minutes pour le résultat et on lui dit mais en
récupérant des données il dit non juste récupérer la liste des séries ça met 40 minutes effectivement
bon bah son expression régulière elle mettait 40 minutes et donc on a fait une fonction qui
s'appelle un nom barbare qui s'appelle re opt alt donc régulière expression optimise de alternates
qui permet de prendre une liste d'identifiants et de créer une expression régulière optimisé
pour que l'identification des séries qui répondent à ces identifiants là soit rapide et on est
passé de 45 minutes et quelques à 27 secondes je crois pour identifier les 600 mille juste parce qu'on
a réécrit l'expression régulière elle est trop bien cette fonction et donc c'est ça fait partie
des effets collatéraux d'avoir beaucoup de séries effectivement il faut se creuser un peu la
tête pour arriver à faire ce genre de truc et donc ça fait une expression régulière qui
est absolument imbuvable il faut pas la relire à la manoeuvre mais n'empêche qu'elle est hyper
optimisée tu la donnes en entretien et tu dis comment tu arrives à ça tu as une ligne qui te fait
ce boulot non non c'est nous qui l'avons fait en fait on a une combinatoire qui fait qu'on a
structuré pour que la combinatoire des alternatives soient la plus faible possible
sinon tu as un arbre qui explose et en fait la recherche mais vachement de temps et en même temps
il faut que oui c'est ça faut que ce soit optimisé pour la recherche derrière voilà parce que en fait
ça c'est un autre problématique sur la cardinalité infinie c'est qu'il y a caractérité ça va
pardon je te coupe mais elle est hyper contreintuitif quoi j'ai l'exemple de la doc là où tu as des mots
classiques j'ai hollow almost all on long ready also also waves etc je trouve que c'est un long
résultat ok elle est efficace elle est efficace et confiance trop c'est brouillant c'est drôle c'est
drôle mais c'est surtout utile parce que en fait le cas d'usage observabilité par exemple
souvent les gens accèdent à un système ou quelques systèmes et donc finalement l'accès au
données il n'est pas si compliqué que ça mais nous on a des cas d'usage dans le domaine industriel
par exemple on se demande des navires dans lesquels c'est pas inhabituel d'accéder à 50 000 100 000
séries différentes pour faire des agrégats sur ces sur ces 100 000 séries sélectionner 100 000
séries sur la base d'expression régulière basse craft pas ton expression régulière de façon
un peu intelligente et ben t'as des pertes patériques et tu peux quand même dire genre b étoile et
il va l'utiliser dedans non là c'est vraiment je sais plus si je sais plus si on l'a fait mais je
me demande s'il faut pas d'abord faire une première extension pour que tu puisses tu puisses
faire comme ça donc mais bon une fois que t'as l'expression tu peux sans doute aller dedans et faire
un petit set de récrisse string de ce que tu veux en mettant une étoile quoi mais c'est bluffant
et ben voilà j'ai appris un truc aujourd'hui moi je sais à qui je vais donner en interne
mais faites le test vous verrez je pense que ça peut être intéressant de voir les effets entre
l'expression régulière fait par l'intuition d'un humain et puis l'expression régulière qui est
pas comme ça je m'en fiche de savoir ce que ça veut dire moi je optimise mais tu vois on en revient
aux enjeux métiers et à l'évolution un peu du spectre de la time series et autant je trouve que
2015 2020 il y avait un moment où tu avais globalement une ths db par semaine qui sortait avec la boîte
de vici qui voulait mettre des billets dedans parce que c'était le truc à la mode et toi trois mois
plus tard il n'y a plus rien j'ai l'impression que ça se calme un peu tu vois que ça se
rationalise alors le marché à deux six c'est à dire qu'aujourd'hui tout cela sont allés sur
de l'éhaille quelque chose donc donc quelque part ils sont un peu moins actifs au niveau time series
mais mais est ce que le monde du sur le domaine de la time series n'est pas un peu en train d'évoluer
aujourd'hui là dessus alors je pense que oui si il évolue pas mal en fait il y a il y a eu énormément
d'acteurs qui qui ont assimilé time series à observabilité c'est à dire que dans leur positionnement
la time series c'était avant tout l'observabilité la raison pour laquelle l'apprentissage c'est
c'était deux choses c'était effectivement par là qu'ils sont rentrés et par là que qu'ils ont
découvert la time series et et le premier sujet auquel ils se sont intéressés mais c'était aussi
le moyen d'aller convaincre des vici que il y avait un vrai marché qui était clairement identifié c'est à
dire que en fait l'engouement pour les solutions de time series qui étaient axés observabilité il
est finalement très corrélé à l'engouement qu'ont eu les boîtes pour des infrastructures cloud
en se disant bah étant donné que je vais avoir une infrastructure élastique avec des trucs qui vont
qui vont bouger sur plein de machines différentes etc je vais avoir besoin de suivre de plus en
plus de systèmes et les deux ont en fait eu une croissance en parallèle sauf que bah ce marché
autour de l'observabilité bah alors je sais pas si si c'est vraiment le marché des time series
qui s'est structuré ou si c'est plutôt le truc autour de l'observabilité je pense que c'est
plutôt l'observabilité dans un premier temps mais il y a des acteurs de l'observabilité qui sont
apparus plus récemment que d'autres on a vu poindre des data dog on a vu disparaître en
gros des neuréliques fut un temps il ya il ya il ya 10 12 ans on voyait des pubs neuréliques partout
tout le monde avait un t-shirt neuréliques et etc aujourd'hui il n'y a quasiment plus de personnes
qui utilisent les neuréliques par contre il ya des gens qui utilisent les deux qui utilisent
data dog et puis les cloud provider ont vu aussi leur propre solution et puis je pense qu'il
encore plus monde a utilisé les neuréliques mais je pense aussi il faut moins de marketing
une petite base établie mon avis il gagne l'envie hein très bien si il gagne l'envie mais mais
tout ça pour dire que le marché de l'observabilité il s'est quand même beaucoup structuré autour
de nouveaux acteurs des graffanas des data dog etc des gens qui ont fait beaucoup d'argent
et du coup les acteurs qui qui se présentait un peu comme des pure players de la time
série mais qui étaient quand même très focussés sur un use case d'observabilité et ben ils ont
un peu perdu de momentum parce que justement leur marketing c'était c'était pas de dire
qu'ils faisaient de l'observabilité c'était de dire qu'ils faisaient de la time série et aujourd'hui
le focus comme les offres d'observabilité sont plus aboutis aujourd'hui qu'elle ne l'était
il y a quelques années et ben les gens qui veulent faire de l'observabilité vont vers des solutions
qui se qui se disent solution d'observabilité et vont pas vers des solutions qui se disent
solution de time series donc comme finalement ce ce ce marché finalement il est il est moins
il est moins ouvert que ce qu'ils avaient imaginé et ben il y a des acteurs qui soit
qu'ils jettent les ponches ça c'est une c'est une possibilité soit des acteurs qui qui change un
peu leur discours et se refocus sur sur des choses plus plus resserrées en termes de
de métier on va dire parce que voilà on parle moins on parle moins de time series aujourd'hui
donc il faut trouver une niche qui va bien les aïe c'est effectivement quelque chose qui essaye
d'embrasser certains acteurs kx système qui est historiquement un acteur qui faisait une base de
données de série temporaire qui s'appelait kdb qui est excessivement utilisé dans le domaine de la
finance aujourd'hui moi je les ai vu sur des salons ils se positionnent comme kdb.ai ils disent
même plus qu'ils font de la time series ils disent qu'ils font du vecteur oui comme toutes ces
boîtes là faisaient de la big data maintenant elles font de l'aiïe c'est toujours un peu le truc
sur les vecteurs search aujourd'hui le vecteur sur qui est le new time series
ça s'appelait graphe avec juste des capacités d'indexation quoi ouais ils vont te dire que c'est
un peu différent de choses avant mais oui d'accord très bien regarde pas le gré à la fin t'as
pégé vecteur dedans et ça fait le job bien sûr bien sûr bon tu peux créer ta DB spécifique
c'est certes mais moi comme toi j'ai vu des DB existait où aujourd'hui elle se mette et a idb
tu as genre c'était pas ça que tu faisais avant pour le code et puis tu regardes la différence de
code tu dis mais en fait le code n'a pas changé voilà maintenant t'as kdb t'as timescale vector
je crois aussi pareil alors que timescale enfin tu vas de timescale leur différenciant avec pg c'était
justement d'avoir un store optimisé timeseries plus ou moins mais avec une modélisation table
SQL un peu à la influx influx parlons-en vous avez vu le blog post de poll 10 ouais ouais j'ai vu le
blog post de poll 10 il repose un peu des choses sur la stratégie open source d'un flu DB qui était
je pense attendu par par les utilisateurs alors on va dire que le positionnement était attendu
je suis pas sûr que ce soit celui là moi je n'ai rien compris j'ai regardé un peu vite mais avant
tu avais influx aujourd'hui tu as influx edge influx community influx influx cloud truc influx
serverless truc influx cloud enterprise machin ok mais par contre effectivement j'ai l'impression
qu'ils ont gardé donc ce qu'ils appellent le edge c'est la version open source raspberry pi la
nouvelle version non non non parce que c'est la version open source mais en fait c'est une
sorte de corps tu vois c'est une sorte d'open core il n'y a rien dans fait à pas le tapas la
gestion des compactions de parquet machin tapas les pressions en fait c'est bien mais ça sert à
quoi je suis alors peut-être pour repréciser un peu parce qu'ils ont ils ont sorti la version 3
l'année dernière je crois et en fait la version 3 d'un flu DB c'est l'évolution d'un flu DB
aiochs qui a une réécriture complet de d'influ DB en utilisant rust et en arrondant un rust
data fusion d'un arreau et puis je sais plus quoi et en stockant les données dans des fichiers
parquet sur un sur un object storage donc c'est un complète complète évolution par rapport à ce
qu'ils avaient avant donc la version un flu DB 3 principale ils sont passés dans un mode cloud
donc c'était le cloud donc en fait soit tu utilises la version open source qui était soit du 1
point 8 je crois soit du 2 et quelques soit tu utilises la version 3 mais dans le cloud et donc
il n'y avait pas encore de version 3 et il n'y a toujours pas d'ailleurs de version 3 open source
spoil mais donc donc ce blog poste là en fait il précise un peu les choses sur ce que va être la
prochaine version open source et bah ils ont ils ont carrément réduit le périmètre c'est à dire
que en fait on voit que la logique cloud first elle fait que ils sont en vie de garder finalement
le gros des features sur des versions qui sont des versions qui leur rapportent de l'argent et pas
pas des versions open source donc exite effectivement un certain nombre de fonctionnalités
notamment la suppression des données on en parlait tout à l'heure mais la version edge qui sera la
version open source d'un flu DB tu pourras pas effacer de données ce qui pose des problèmes de
compatibilité avec le rgpd effectivement mais ce qui pose aussi des problèmes parce que potentiellement
tu t'es planté dans ta envoyée tu t'es planté tu t'as envoyé en vie de recommencer tu vois
là le cycle de vie qu'on évoquait tout à l'heure ben tu l'oublie aussi ça va pas être possible
donc bref en gros c'est c'est la tsdb pour les gens qui se trompent jamais donc bien tant mieux sur
nard mais comment tu fais quand t'as fini de beurrer tes bifes avec toutes tes données en fait
peut-être que tu peux effacer des fichiers par quai et que ça essaiera mais bon donc il
n'y a pas de suppression et il n'y a pas effectivement ce que tu disais stéphane il n'y a pas de
compaction or finalement leur fichier par quai si si ils ont gardé le système il y a quelques mois
quand j'avais regardé en fait leur sweet spot de taille de fichiers par quai c'est là que
on peut se demander si ils ont bien saisi la philosophie derrière par quai la taille idéale
pour eux de fichiers par quai c'est dix méga auctets oui c'est à dire que en fait ils génèrent plein
de petits fichiers par quai c'est du parquet embarqué c'est du parquet embarqué même sur la
version cloud si j'ai bien compris c'est là c'est le sweet spot qu'ils ont identifié et à côté
de ça ils ont plein de métadonnés qu'ils extrait des fichiers par quai c'est à dire qu'en fait dans
la version cloud qu'ils ont et ce sera le cas dans la version community qui veulent qui veulent
intégrer et sans doute dans la version edge en fait il ya un métadata store qui permet d'avoir
les métadonnés des parquets et dans ce métadata store si j'ai bien compris ils mettent carrément
les foutreurs des fichiers par quai quoi parce que en fait la problématique au moment de des requêtes
c'est d'identifier les fichiers qu'il faut aller taper pour pour servir d'une requête donnée
et peut-être même qui prennent les mines les max ou les médiales comme ça tu vois ils s'en
mettent même pas donc tu vas tu vas quand même avoir un problème de scalabilité de ce métadata
store parce que beaucoup beaucoup beaucoup de fichiers bah un potentiellement ça va être
problématique et donc ils ont une fonctionnalité de compaction des fichiers par quai qui vise à
recréer des fichiers plus gros une fois que tu t'es rendu compte que t'avais trop de fichiers
sauf que dans la version edge open source là et ben il n'y a pas cette fonctionnalité donc
tu te démarreras avec des petits fichiers et plein de petits fichiers pas sûr que ce soit ce que les
gens veulent mais bon sur ta carte sd sur ton paille sur ta carte sd sur ton paille ou même sur ton
serveur puisque en fait la seule version open source qui aura d'influidébé vraiment tu
veux utiliser une vieille version ça sera celle là faut que je dise en détail ce qui dit pour
flux parce que en vrai je comprends rien ce qu'ils font à la fois je l'en sortis il en sorti
flux ouais mais je me dis c'était presque ce qui était ce qui devenait le plus intéressant chez
eux c'est un c'est ce que vous faites vous c'est l'équivalence c'est un langage qui est fait pour
manipuler de la donnée orienté time series ce qui n'existe pas en si quoi et le genre de trucs
avec une approche data flow avec cette capacité de dire je fais une query mais je vais débug à
tel endroit puisqu'on continue puis tu vois en fait répondre à la complexité des enjeux métier
des gens et bon ils expliquent qu'ils ont pas eu l'adoption qu'ils attendaient d'accord en fait
c'est oui c'est long de créer un langage mais à qui il dit tu es mais en fait le truc c'est que
effectivement pour des vici je trouve que c'est par rentable puisqu'ils ont commencé ça en
2017 2018 si mes souvenirs sont bon et ben ouais 2017 2018 on est 2024 vici je pense qu'ils sont
des périodes de 5 ans tu vois donc ils disent bah du coup c'est par rentable bah arrêter ah ouais
ben ouais mais bon et qu'il y a des gens qui vaient commencer à construire dessus quoi donc je
pense que là ils se font enfin tu perds confiance quoi dans les flux ça fait quatre fois qu'ils
réécrivent leur store si mes souvenirs sont bon je crois donc ils sont à la quatrième récriture de
leur soft donc déjà tu dis vous êtes sûr que vous avez bien compris votre métier parce que bon
allez on juge pas mais c'est la quatrième récriture là il maintenant il y a on va dire enfin il y a
plus d'open source de la solution il ya un open core d'une partie mais qui n'est pas vraiment
utilisable je comprends même pas pourquoi ils disent que la branche le repos aio x a été copié
sous un comique dans le ref dans le repos un flux db et que le aio x repose ah oui d'accord en fait
oui il refusionne les repos très bien il ya il ya andrew lam c'est andrew lam c'est le core
contributeur data fusion par exemple il a fait un papier de roi il a fait un white paper sur
la fusion et il apparence il a step down de son poste de comment ça s'appelle les les liens
c'est oui je crois qu'il est la step down d'or et alors il a step down d'atta fusion mais en fait il
a non de pmc attend je sais plus moi mais il est arrivé pmc dans notre truc il est arrivé pmc à
rouge crois ok bon si mais c'est un digrove qui redevenu le ah non pardon je confierais qu'on
digrove bon bref c'est le tpf et hop le donc en fait moi je trouve que flux c'était le truc pour
justement aller ancrer avec des boîtes qui ont des vrais enjeux métiers et qui sont du coup celles
qui vont te payer réellement tu vois pas les les wannabe hobbyiste sur adb hippie pour faire
la yoti du dimanche mais bon après peut-être qu'effectivement ils ont eu des mauvais retours
de leur communauté mais moi du coup dans ma compréhension je me dis ben oui mais du coup ils
font quoi on fait du flux que elle encore en fait alors je sais pas si j'en ai des mauvais
retours je pense que nous on a beaucoup regardé flux parce que effectivement l'approche était un
peu similaire d'ailleurs je j'avais tweeté à pôle poldix quand ils avaient sorti flux en disant
ah bah ça y est on est content de voir que vous marchez dans nos pas c'était taquin un peu
j'étais un peu taquin mais mais en fait ils ont pas vraiment marché dans nos pas c'est à dire que
flux je crois avait 80 fonctions là où nous on en a 1300 et donc en fait il manque plein de choses
donc je pense qu'il y a eu une énorme frustration chez les gens parce que finalement tu tu commences à
les faire à utiliser du flux et puis tu te rends compte que tu peux pas vraiment faire les trucs
que tu peux pas faire et donc voilà c'est frustrant parce que t'as commencé mais tu peux pas aller
plus loin et donc c'est un peu c'est un peu compliqué donc ça ça c'est c'est vraiment une
problématique et puis tu veux dire qu'il n'était pas turing complet quoi ah bah clairement il
était pas turing complet ça c'est sûr et puis on peut pas recomposer tes fonctions non non
il y a plein de choses que tu pouvais pas faire puis tu pouvais pas l'étendre et tu vois ils avaient
promis que tu pourrais faire des macros créer tes propres fonctions etc alors ça jamais était
vraiment très très clair donc là je pense qu'ils ont jeté les ponches en disant on va juste faire du
SQL alors ce qui est intéressant d'ailleurs parce que en fait quand tu regardes on va dire l'acteur
phare de la time series en SQL qui est quand même timescale puisque timescale c'est une extension à
pg donc peut difficilement faire plus SQL que pg en fait ils ont fait le chemin inverse c'est à
dire que eux ils ont ils ont dit bah nous on est SQL pour faire des timescales et puis ils ont
atteint les limites du SQL pour faire des timescales et ils ont introduit il y a je crois deux ans
maintenant un truc qui s'appelle function pipeline où en gros ils font du data flow au sein d'une
requête SQL donc c'est un peu artificiel mais donc en gros c'est sélecte fonction 1 pipe fonction
2 pipe fonction 3 pipe fonction 4 from machin donc ça de SQL le sélecte le from et on va
dire ça a plus la débugabilité tu peux pas au milieu ton pipe dire pause print moi les données
de qu'est ce que tu as là non non ça c'est sûr donc c'est rare en flux tu peux difficilement le faire
parce que il faut que tu tu t'as pas de des bugger il faut juste que tu que tu chringues ton script et
que tu te dises bah finalement je vais m'arrêter là quoi donc donc en fait timescale ils ont fait
le chemin en se disant SQL ça suffit pas on va aller vers autre chose et dans le même temps un flux
db ils disent bon non flux on arrête on va aller que vers du SQL et SQL ça devrait suffire donc ça
c'était le discours initial alors ils se sont heurtés à des gens qui disent ah ouais mais moi
je fais avec avec flux en fait je peux pas le faire en SQL et c'est pour ça que je fais du flux
et donc ils en redisent bah ouais alors en fait il ya il ya il ya trois voies possible il ya une
première voie qui est vous faites du SQL vous récupérez les données puis vous écrivez ça dans
autre chose bon en gros tu repars de zéro et tu réécris tout ton métier sympa je suis pas sûr
que tout le monde soit vraiment très pour ils ont donc un flux à passer flux en mode maintenance
mais il ya eu une initiative d'un fork de flux qui existe sur github je sais plus comment
il s'appelle flux pipe je crois bah il ya un flux community non non non il ya un truc juste flux
qui s'appelle flux pipe je crois ok un projet sur github et donc ces gens là ils disent ben on
va faire un binaire de c'est open source mais on va faire une release dans lequel il ya un binaire
qui permet d'interagir en utilisant flux sur des sources de données diverses dont un flux db
et donc les gens qui aujourd'hui utilisait du flux un flux est en train de les pousser vers flux
pipe en disant voilà il faut aller il faut aller vers vers flux pipe comme ça vous pourrez vous
pourrez régler vos problèmes en utilisant un flux donc ça c'est la deuxième possibilité et puis
la troisième possibilité c'est ce qui veut l'intégrer dans un flux db c'est ce qui parle ce
dont il parle je crois dans l'article en disant qu'il veut le faire une vm en fait il s'imagine faire
des vm qui tourneront sur la même machine que un flux db dans laquelle tu pourras faire tourner
du piton par exemple et d'avoir une sorte de je sais pas de l'ansta ou du face locale à ton
déploiement de local à ton parquet du coup local à ton à ton cas tu es chose local à ton API
de cléry quoi pour économiser le réseau sur le truc que vous voyez franchement je ne sais pas trop
à quel à quel endroit il veut le positionner en tout cas voilà donc ça c'est les trois les trois
trucs qui te proposent pour que tu puisses quand même t'en servir sachant que ça pose plein de
questions parce que bien comment est-ce que tu récupéreras les résultats comment est-ce que tu
pourras intégrer ça dans des dashboards comment est-ce que tu pourras visualiser comment est-ce
que tu passeras ça à l'échelle où feront localiser tes traitements si tu as un truc distribué
enfin voilà il ya plein de questions aujourd'hui sur lesquels il n'y a pas de réponse donc ça
reste ça reste une belle promesse ça reste une belle histoire maintenant faut voir comment est-ce
que ça va effectivement sortir donc ce sera intéressant en 2024 de voir comment est perçu un
flux db edge 3 0 version open source ou alors fait il veut aller voir le marché de l'analytique et de
la biaye quoi pour avoir en fait des cap y a qui vont être comme ces gens là sont plutôt des
acheteurs généralement tout ce qui va être un peu reporting de data de type time series machin
en fait ils veulent s'intégrer aux autres y bi les tabaux machin est pour ça qu'ils vont sur le
support sqale uniquement parce que comme ça ça s'intègre dans les clics du tabaux machin et
et en ayant une stack plutôt orientée analytique parce que du coup parquet à roues machin
enfin on n'est pas dans du transactionnel alors ouais non on n'est pas dans du transactionnel
ça c'est sûr après la partie analytique elle est toute relative parce que moi par curiosité j'ai
essayé d'ouvrir les fichiers parquet avec pys park et en fait on peut pas les lire donc la promesse
qui est de dire c'est pas qu'est ce standard à l'équique via un flux quoi il reste ouais ouais
mais la promesse de faire du parquet c'est que tes parquettes tu peux t'en servir n'importe où
en fait tu peux pas ils vendront peut-être l'extension qui permet de les lire et un encoding
en fait ils sont générés par arro et arro utilise des types que pys park c'est pas reconnaître donc
si tu fais du pys park sur étagère en fait tu peux pas lire les données qu'il y a dans la fin tu
peux tu cas tu pouvais pas il y a quelques mois à lire les données qu'il y avait dans l'if chez
parquet généré par un flux db oh c'est trop nonce ouais c'était un peu un peu bizarre ok
mais bon écoute donc voilà le donc c'est la fin d'influo ss quoi ouais je sais pas si c'est la
fin d'influo ss en tout cas c'est un clair revirement et à de fortes chances que les gens qui
utilisent un flux ss aujourd'hui restent sur des versions et encore déjà beaucoup de gens qui restent
sur la version 1 donc la réflexion que ça m'amène à chaque fois c'est c'est toujours le côté
instable que ça crée de reposer sur des boîtes financées massivement par du du ici du venture
capital qui veut un héroï très rapide en quelques petites années et qui fait que quand tu construis
ta stratégie d'entreprise sur des services ou des boîtes comme ça bah t'as quand même une
une non pérennité de ton avenir enfin c'est pas garantie quoi et je trouve qu'il y a pas mal de
boîtes qui aujourd'hui n'ont pas à se réflexe ou cette maturité de dire ok votre techno est
intéressant ou pas machin mais vous êtes financé comment c'est quoi votre modèle derrière et tu
pour l'illustrer je sais que le début de semaine en état belgique et on a eu justement un
partenaire allemand qui qui nous a posé cette question là on nous a ok c'est quoi votre modèle
de financement alors par ailleurs nous on croit sur nos revenus donc oui on croit moins vite que
certains qui ont de l'argent gratuit sauf qu'on garde notre liberté notre liberté de penser et
d'implémenter et et quelque part je peux dire que ça n'a pas de prix évidemment ça a un prix
que en fait à des gens qui disent oui mais regardez eux ils vont plus vite alors ouais ok on
paie ce prix là mais par contre on est là pour durer quoi on est là pour durer et c'est ça qu'on
peut vendre c'est le fait d'accompagner ces boîtes là dans le temps puisque bah ça fait partie
de notre mission et je sais que quand vous partagez ça avec nous c'est que aujourd'hui vous avez un
modèle d'investissement où vous nourricez de vos clients comme nous et je sais pas si vous avez
beaucoup sort de retour ou pas ou si vous voyez des clients qui commencent à des gens qui commencent
à avoir cette maturité d'analyse du marché et de se dire est ce que est ce qu'on est dans un
écosystème sain ou est ce que on s'en fout il y a de l'argent magique et puis le projet c'est
l'informatique c'est sale et dans deux ans je fais feuilles blanches et repars à zéro donc tant pis
c'est quoi ? J'ai pas l'impression qu'il y a encore une très très grande maturité sur ce sujet là
je pense que en tout cas sur les sujets autour de la time series il y a quand même beaucoup de gens
qui succombe au champ des sirènes au marketing en gros parce que parce que quand t'as levé beaucoup
d'argent t'as une grosse partie de l'argent que t'as levé qui va servir à faire du marketing et
un flux d'ébés ils sont passés à mettre dans cette art là, ils ont effectivement une machine
marketing qui est très très très très bonne et qui a réussi à convaincre plein de gens qui
étaient la solution qu'il fallait adopter. Je suis étonné qu'ils se voient pas sur les haïs tu vois
Ouais je pense qu'encore, pas encore. Ouais je sais pas trop où ils pourraient en mettre mais bon peut-être
mais nous on a encore beaucoup de questions de gens qui disent ouais vous êtes petit etc et moi je
réponds toujours la même chose je dis la seule chose. Moi je serais plus gros. Non mais c'est même pas
chaque mois c'est la seule chose que vous pouvez faire pour qu'on devienne plus gros c'est de
venir clients et de rester clients et ma responsabilité à moi en tant que fondateur de boîte et en
tant que CTO c'est de faire un produit qui fait que vous restez pas par pitié mais vous restez parce
qu'on vous apporte de la valeur et c'est ça l'équation c'est ça l'équilibre qu'il faut trouver
c'est que la boîte fait un produit et moi j'ai aucun problème à ce qu'une boîte y compris
la mienne meurt parce que son produit était pas bon enfin je veux dire quelque part si tu
fais pas un bon produit ben oui ta destinée c'est sans doute de mourir mais si tu fais un bon
produit et que tu meurs juste parce que les gens en face ne sont pas conscients qu'ils ont ils sont
en pleine capacité de faire en sorte que tu sois encore là dans 10 ans là c'est plus embêtant
et aujourd'hui j'ai l'impression qu'on est quand même encore dans cette phase c'est-à-dire que les
boîtes s'attendent à ce que tu deviennes gros tout seul sans que tu sois aidé par des clients
et ça malheureusement ça n'arrive pas parce que l'argent gratuit que tu évoquais tout à l'heure
il est jamais gratuit c'est à dire que les 100 millions les 200 millions que une boîte va récupérer
auprès d'un visi elle les récupère parce que le visi s'attend à ce qu'il récupère 300 ou 400
millions derrière et donc à un moment donné il va exiger de la boîte qu'elle ait une rentabilité
cette rentabilité elle va peut-être faire que tu dois être tu dois refocusser ton produit
complètement tu dois aller sur des périmètres sur lesquels certes tu vas faire du chiffre d'affaires
mais tu ne vas pas servir tes clients historiques et donc la stabilité que les gens s'imaginent
qu'ils auront avec une grosse boîte elle n'est pas forcément là quoi et et et l'écosystème
tech il est rempli de boîtes qui qui ont eu ce travers là c'est à dire qu'elles ont levé
beaucoup d'argent on a beaucoup parlé d'elle elles se sont montrées à tort et à travers comme
étant les champions de demain sans même avoir de produits sans même réaliser de chiffre d'affaires
et puis à un moment donné bah une fois que tu as consommé tout l'argent qu'on t'avait prêté
et que tu n'as pas de chiffre d'affaires bah tu as deux solutions soit tu meurs soit tu arrives à
récupérer de l'argent ouais tu tu trouves que c'est globale ou particulièrement en france que
il y a cet attitude là je pense que alors je sais pas si c'est particulièrement en france en tout
cas c'est plus marqué en france mais t'as plus de mal à avoir des gens qui te font confiance en
france quand tu es une petite boîte que à d'autres endroits en fait quand tu vas discuter à d'autres
endroits comme comme le monde anglo saxons notamment dans le monde anglo saxons on va on va te dire non
si tu les interessares pas on va pas te faire tourner en bourrée que en faisant emmirer tes
des choses qui n'arriveront pas on va te dire bah non je n'ai pas d'usage pour ton truc ou non
ton produit mais qu'on vient pas voilà on va te le dire franchement et par contre si on te dit oui
et ben on va considérer que t'es aussi important que le fournisseur qui est cinq fois ou dix fois
ou cent fois plus gros quoi parce que bah voilà on t'a pris comme étant une solution on a besoin
de toi et maintenant la responsabilité de ton client c'est aussi de faire en sorte que tu sois
là pendant dix ans ou pendant vingt ans pendant trente ans enfin aussi longtemps qu'il aura besoin
de créer un écosystème 5 exactement ça effectivement c'est moins marqué en france
malheureusement pour tout cas aujourd'hui je suis d'accord il y a en fait en france il y a un aspect
très business des boîtes c'est à dire qu'en fait quand les succès qu'on considère être des boîtes
c'est d'ailleurs j'ai en bâtiss qu'est-ce qu'il l'avait expliqué dans je sais plus quel podcast
oui il expliquait que en fait on considère être comme l'hélicorde de la tech certaines boîtes
parce qu'elles ont en fait une valorisation importante mais la plupart de ces boîtes qui
ont des grosses valos en fait technologiquement elles sont assez inintéressantes en fait il
n'est pas grand chose c'est des bons produits des belles réussites mais pas des réussites tech
c'est pas des réussites technologiques je suis assez d'accord avec lui tu vois sur certains aspects
où il y a des fois des boîtes oui elles ont une belle réussite certes mais en fait d'un point de
vue t'est que elles n'ont pas inventé la lune tu vois et c'est pas grave elles réussissent bien dans
leur mission mais on attend ça au fusquet le côté belle ingénierie tu vois belle technicité et
effectivement quand tu discutes avec pas tous les français évidemment mais tu discutes avec plus
des allemands toi sur certains salons ou quoi c'est très très différent quand ils viennent te voir
ils te disent ok c'est quoi ton produit ok mais comment ça marche ok pour qui pourquoi qu'est ce
qui fait quoi ok machin fait c'est t'es presque en train de faire un schéma d'archie avec lui alors
que tu sur un salon un mode chill détendu tu vois en mode rare regarde on fait ça c'est cool
tu appuies sur le bouton ça marche tout seul oui oui oui mais derrière le bouton il y a quoi tu
vois c'est tu sens qu'il y a une volonté de vouloir comprendre à quel point t'es crédible à quel point
il y a de la valeur dans ton produit mais il y a de la valeur par la technologie là ou ouais tu fais
des salons en france c'est tu as la question tu fais du cube ben t'as combien d'étoiles sur guilletade
ouais combien d'étoiles ouais combien d'issues est ce que putain d'issues il y a pas que ça
ou vous êtes combien ah vous êtes trop petit ben pourquoi quoi ton problème c'est pas ton
besoin après moi je dis que sur les licornes moi je dis toujours c'est très facile de faire une
licorne alors je veux dire ton l'épicier du coin peut devenir une licorne c'est très simple tu lui
file 1000 euros et il te file en échange un millionième de ta boîte et ça y est c'est une licorne
il aura désormais un peu parce que ça va aller ça va être un milliard mais ça sera
techniquement une licorne donc donc faire des licornes c'est pas dur si tu veux que ça te coûte
moins de 1000 balles tu lui filme 10 balles et tu prends un 100 millionième de sa boîte et ça
sera aussi une licorne il aura aussi des problèmes il aura aussi des problèmes mais donc c'est pas
une finalité en soi le vêt de l'argent c'est pas la finalité et en fait le problème de la perception
qu'on les gens aujourd'hui de l'écosystème texte et qui s'imagine que c'est la finalité ça
imagine que t'as levé de l'argent c'est bon t'es une grosse boîte à un moment donné
le grand coup ouais peut être crunch avait je trouve proposé un truc alors visiblement ça
fait un peu pchite et personne s'en est saisie mais c'était de dire plutôt que de valoriser
l'écosystème en tout cas de le juger à l'aune de quelles sont les boîtes qui sont délicantes
donc une licorne c'est une boîte qui est plus d'un milliard de dollars de valorisation donc en
gros c'est que quelqu'un à un moment donné a jugé que la boîte valait potentiellement un
milliard et a mis de l'argent en conséquence donc plutôt que de juger les boîtes sur ce
critère là c'était de juger les boîtes sur celle qui font plus de 100 millions de dollars de chiffres
d'affaires et là c'est plus la même histoire là c'est plus déjà c'est plus dur à trouver
et puis là t'as une grosse goutte de sœur pour celle qui ont une valeur de 1 milliard mais tu
comprends que la rentabilité elle est loin loin loin pour certains parce que il y a des boîtes
moi j'aime bien prendre cet exemple parce que je trouve qu'il est assez étonnant mais agricoul qui
était une start-up française qui voulait faire des conteneurs dans lesquels on allait cultiver
des fraises de la salade etc et pour quelque part faire de l'agriculture au milieu urbain
je pense pas que ça n'a jamais été une unicorn mais ça a été une boîte qu'on a mis en avant
disant regardez elle avait beaucoup d'argent etc de mémoire elle a dû lever 30 millions et quand
elle est partie au tas donc quand elle a dû fermer parce qu'il y a plus d'argent et qu'elle
était en liquidation judiciaire je crois que le chiffre d'affaires max qu'ils ont fait une année
c'était 160 000 euros quoi donc donc elle a levé 30 millions et elle a jamais fait plus de 160
000 euros de chiffre d'affaires en une année donc ce qui est quand même moins que l'épicier du
coin pourtant tu avais du monde à investir dedans là je vois ouais il y avait du monde à
investir tout le monde il y avait niel zefa orrice et doute parotte capteintrain parce que la promesse
était jolie donc mais comme on s'est focalisé sur sur la levée sur l'histoire qui était racontée
et sur sans doute un peu de marketing derrière on a oublié les fondamentaux qui sont que si tu
fais une boîte à un moment donné c'est quand même aussi pour trouver un marché et avoir un produit
à mettre en face quoi et elle est décédée en 2022 donc voilà ouais parce que l'agriculture c'est
plus le truc principal en fait non c'était tellement avant 2020 il n'y a pas d'éil et pas d'éil non
alors ceci dit on a fait un épisode où on parlait un peu d'agriculture dans l'épisode 99 où on
parlait de drones de tracteurs auto pilotés etc l'agriculture est quand même en train de se
réinventer mais à vitesse peut-être pas grand v mais ça va très très vite bien sûr en fait
t'as des nouveaux agriculteurs un peu systémdés mais qui n'ont pas peur de sortir un ordi ou qui
s'entoure de gens qui ont des ordi qui savent un peu sens un lire et qui du coup savent bricoiller
d'autres trucs mais il ya deux choses en fait il ya le cédurentabilité des fermes des
exploitations agricoles qui est souvent lié aussi à la surface et à la taille de l'exploitation
un peu comme les autres pays particuliers en amérique du nord où les fermes sont absolument
immenses en nouvel zélande aussi la volefrance et l'or pour tout cas regarder des tailles de
exploitation agricole assez familiale et assez petite et les douées installations ont tendance
à être plus grandes et donc investissent massivement dans la tech pour optimiser justement avoir moins
de temps personnels et puis maximiser l'effort à produire pour produire du du rendement sans
sa ferme et le deuxième truc c'est que les produits fitaux et compagnie l'eau ça consacre
ça devenait rare les produits fitaux ça coûte cher donc on s'entoure de tech et d'aïotis entre
autres pour justement réduire ses coûts l'exploitation de fermes ouais tu transposes un
peu entre guillemets le le coup c'est à dire qu'au lieu d'acheter le produit de le mettre
partout avant d'un moment tu mets un peu de tech qui cible exactement où il faut pour y aller
exactement donc c'est à dire que tu travailles en amont c'est plutôt de l'investissement
ce que c'est pour ça que les jeunes qui s'installent peuvent se le permettre c'est à ce
moment là qu'au moment d'acheter la ferme qui font leur crédit bancaire pour s'équiper acheter
gros tracteurs qui va bien avec le guide à chathélite et tout ce qui va bien là où les
ériceurs déjà en place sont déjà en été ont du mal à investir dans ce genre de matos
alors le problème c'est que les nouveaux tracteurs c'est bien bien cher aussi
tu ne m'écoles pas tu m'écoles pas toi même en étant toi même ton système de guidage
que mon a canard chénique qui fait pour le sien ou il lui dit la moindre option là c'est
je vais tu la sens bien passé quoi c'est ça mais avec jean dire là sur les licences et sur
la maintenabilité des tracteurs attend je ne sais pas si l'un n'avait pas parlé de ça un peu
ouais non tu l'entends ton exemple il me semble que en gros il y avait des gens qui avaient fait du
reverse engineering pour pouvoir réparer eux même leurs tracteurs je crois que jean jean dire les
a poursuivis en justice en en disant que c'est une violation de la licence et que les a pas
le droit de faire c'est le commercial dorac le qui est là bas je sais pas mais mais en tout cas
voilà c'était c'est tu n'avais pas le droit mais mais tout ça n'est pas plus mal tu vois c'est
encore une fois c'est grâce à de l'informatisation et a du logiciel que on vient à améliorer notre
santé quoi donc pour à la fois nourrir plus de bouches mais avec une meilleure qualité et en
préservant la terre parce que ouais on a des enjeux quand même assez assez majeur et et puisque on
est capable d'avoir des drones qui vont détecter des maladies des trucs ben à un moment donné
faut être capable de visualiser n'est ce pas qu'elle est ce que tu voulais en venir
en termes de visualisation avec ce talent et bien on a on a deux choses à vous évoquer aujourd'hui
puisque on a effectivement contribué une nouvelle version du plug-in graffana pour waaten donc pour
être dans la continuité un peu voir ce qui nous permet du coup de d'avoir une intégration
graffana pour faire toute l'observabilité au sens propre du coup de vos données quelle qu'elle soit
financière monitoring métier etc mais je pense que tout le monde connaît graffana et si jamais
bon ce plug-in là vous intéresse il est disponible sur le github cléber cloud et donc vous savez
juste un format plug-in il faut d'ailleurs pour le référence il faut pas je sais pas si on l'a fait
je sais plus dans les extensions graffana mais graffana je pense que vous connaissez vous connaissez
peut-être moins discovery j'avais escouté une part mais pas un peu de discovery évidemment avec
plaisir parce que graffana c'est bien c'est pas suffisant on a toujours en mémoire l'open space
avec tous les mecs qui sont en train de coder sur leur pc et une télé avec un graffana qui affiche
l'état du système et puis en train de sauver un data center parce qu'on est dans l'observabilité
et puis un des serveurs qui passent en sucette et un mec qui passe avec un hâche le disque dur et
bah là on le sait pas forcément parce que tout le monde a le nez dans son écran et personne ne regarde
l'écran graffana et quand bien même l'écran graffana bah il reste à afficher les têtes
ton data center alors éventuellement voir faire poête poête dessus pour voir où s'en met l'idée
derrière discovery c'était créer un outil data vise en de dashboarding qui soit dynamique c'est
un système qui permet d'avoir une vision d'ensemble quand tout va bien puis le jour où la
jamke vignes qui passe et qu'arrache le disque dur t'as une alerte qui se met en route sur ton
système et le dashboard vient changer de lui-même sa présentation sur l'oucanfield éventuellement
pour mettre le focus sur les capi a qui sont intéressants à ce moment là pour la résolution
du problème et voir émettre un son même pour que les gens lèvent le nez de leur clavier et regardent
ce qui se passe sur l'écran l'écran g1 donc c'était un peu l'idée de discovery c'est un peu
l'idée de discovery qu'on avait à ses débuts puis on l'a travaillé sous forme de libres
et web components qui permettent aujourd'hui de l'incluer d'avoir des dashboard dynamique
voire juste des simples tuiles pour afficher un graphique un camembert autre chose ou une carte
donc tu peux l'incluer dans ton site web d'entreprise soit sur ton intranet sur ton site web client
sur ton portet client si tu as envie chose que tu peux pas faire avec graffana par exemple
on voit un peu l'idée derrière discovery et tout ça c'est avec notre langage que tu viens
chercher les données les manipuler les mettre en forme et les mettre à dispos d'une couche de
représentation x ou y qui te permet d'afficher tes capi a qui t'est donné à un santé
moi quand on parlait d'un ensemble d'écosystèmes effectivement du coup discovery est une des
pièces de cet écosystème là je sais qu'on avait créé un truc comme ça à l'époque c'était
avec mitten on avait créé un truc s'appelait my board qui était un peu semblable à ça mais là
discovery est la même idée mais mieux et ce qui effectivement te permet de dynamiser complètement
ton contexte quoi puisque comme tout est programmable par tes données la composition elle-même de ton
dashboard peut être peut être changé tu peux si tu as une alerte majeure tu peux changer pour mettre
en tu as je vais faire un qui est énorme on dit ouais t'as sûr regarde bien là et ouais moi j'encourage
tout le monde à aller regarder ce que c'est parce que c'est hyper intéressant enfin j'adore ce projet
faut que j'en fasse plus comme autre chose mais tu vois pour tout ce qui est télé comme tu le dis
alors dans l'industrie c'est peut-être même encore plus intéressant mais ouais surtout si tu
veux interagir naviguer entre les dashboards par exemple dans l'industrie typiquement t'as les
doigts bien crado t'as en bleu de chauffe t'as pas forcément un clavier ou une souris ou alors
enfin de trimestre l'état du clavier de la souris il est temps de la changer donc l'idée de
discovery également c'est pouvoir afficher éventuellement des QR codes et tu viens de flasher
ou et ça vient changer le dashboard faire le focus au tel ou tel truc ça te permet de naviguer
dedans via du QR code via autre chose sans pour autant avoir à utiliser clavier et souris
systématique pour naviguer entre tes dashboards et faire un focus sur un équipement particulier
plutôt que l'ensemble de ton système et t'as deux modes de consommation de données soit t'envoies
le script et tu mets à jour la tuile et soit tu souscrives ou websocket pour recevoir en fait
tes données et à ce moment là ton graph est plutôt plus c'est ça en fait à deux vassons
de le voir donc t'as une façon un peu statique même si t'as de l'autorifresh mais sous forme de
polling http une version websocket pour du streaming de données mais là c'est pas simplement
ta donnée brute tu peux envoyer carrément un script se faire exécuter périodiquement sur le
serveur et si les données sont le résultat de l'exécution de ce script tu vas y arriver et
streamer sur la websocket et donc les données peuvent être mis à jour en direct live en direct
live avec un léger différé on va dire le temps du traitement et la ton dashboard qui évolue dans
le temps le dashboard est graphique etc etc et les tuiles pouvant communiquer entre elles
le tu peux avoir même des effets de seuil sur un certain certain graphique qui peuvent induire le
changement esthétique d'une autre tuile pour la passer en rouge en vert en fonction du dépassement
d'un seuil d'autre chose c'est hyper bien c'est quoi ton sujet du moment sur discovery le
prochain truc le petit tizign que petit tizign à discovery c'est bien mais c'est du code donc
c'est du dashboard d'ascode et puis il y a des gens que le que le code est frais tu comprends
c'est sale le code alors on est en train de plancher sur une version un peu plus graphique de
discovery un peu la mode graffana tu fais en drag and drop ton dashboard tu dépose tes tuiles tu
réagences avec derrière alors ça c'est plutôt pour un public intermédiaire c'est pas
ça nécessite de développer quelques macros côté warp ten qui expose leur interface
ils ont tel macro pour afficher je sais pas mal l'état des disques durs du cluster ont besoin
d'une date de début une date de fin et puis un numéro de data center ça devient des paramètres
de la tuile et donc dans discovery studio qui sera ce futur produit qui vient serrer une tuile
sélectionner la macro l'état de mes disques et ça vient de proposer des change de saisis des
chandates pour dire bah je veux m'aîné entre deux dates pour tel type de cluster c'est tout en
clics souris et pouf ça t'affiche ton truc directement avec la possibilité de l'exporter
en pdf éventuellement ok et tout ça s'intègre avec l'explorer j'imagine non et bien ce sera
une extension de discovery explorer aujourd'hui discovery explorer c'est un un site web un
peu clé en main sur lequel tu peux brancher du cliquet loco et autres sur lequel tu viens
de poser des dashboards discovery bah là on va pouvoir éditer ces dashboards discovery les
ajouter etc etc ok top et ben j'ai hâte d'aller tester tout ça et du coup pour terminer je vous propose
tu en a évoqué un peu dans ce podcast la capacité de débugger justement des scripts ou des requêtes
et on disait que un flux n'avait pas cette capacité même via flux de débugger et il me
semble qu'il y a quelque chose qui arrive sur warscript c'est mon autre sujet du moment je
attend bien dis donc effectivement avec matias on avec l'équipe là on planche sur un système
de débugage au sein de la prise ça va pouvoir depuis nos idées aujourd'hui on a un a2 on a
voir studio qui est la version web de notre le et puis une version souvent de plugin obs
depuis ces idées là tu vas pouvoir poser des breakpoints et faire du pas à pas voir l'état
de tes variades de ta stack à un senté etc etc et du coup comment ça fonctionne tu repose sur
un serveur distant auquel tu tu envoies et te renvoie les étapes avec les vrais que tu transmets
oui ça va matias tu veux que je fasse le bon on peut sortir le numéro du vétiste sur le sujet
si tu veux en fait on a dans d'envertenne il y a un ensemble de plugins qui peuvent être ajouté
et donc en fait on a un plugin qui s'appelle le trace plugin qui permet d'emballer des macros
pour justement faire permettre de faire du pas à pas ou des choses comme ça et on s'appuie
sur cet enrobage et tous les métadonnées associées pour afficher les informations dans nos idées
ou ce soit par studio ou vsc ou voilà et donc c'est la conjonction entre une partie qui est côté
côté backend et une partie qui est côté frontaine qui va interagir avec cette partie backend par
une websoquette sur laquelle on va passer des commandes et faire le pas à pas et l'état des
variables de l'état de la première top et alors du coup ça arrive quand à peu près cette extension
là au marché des extensions premier trimestre c'est bientôt quoi ouais c'est bientôt donc ce sort
de semaine moi voilà ça sera ça sera disponible sur la sandbox comme ça en fait dès qu'on a
une version alors on est un peu perfectionniste et exigeant avec nous même donc c'est pour ça
que c'est pas encore là c'est un travail qu'on a commencé en 2019 donc c'est quand même c'est
quand même vieux mais on poussera on passera on passera ça ouais sur la sandbox je pense côté
fin fevrier mi mars quoi ok pour être au courant de tout ça il ya un compte twitter j'imagine
d'assuire alors il ya warp 10 io sur twitter et sense hq aussi après qui est plus corporate
et après à dire si on sera sur à dire si on sera sur le skate sur twitter longtemps je ne sais pas
on fait un petit coup à morgan qui annime tout ça très bien où est-ce qu'on vous retrouve tous
sur les différents réseaux à votre à gauche vous aillez bas sur x pour l'instant
sous arroberte mara puis moins plus simple sur la lounge également ouais si vous voulez
parler de warp 10 on a un slack qui s'appelle le warp 10 lounge qui qui permet de discuter avec les
gens qui utilisent warp 10 venez faire un petit coucou de la part du massi ce sera drôle
et puis ouais donc ça ça nous fera plaisir de vous avoir et puis sinon moi je suis encore un tout
peu sur twitter mais je crois que mon compte est en privé depuis le début de l'année parce que
j'ai hésité à le fermer et sinon sur blouskye donc ça tombe bien parce que maintenant blouskye
est ouvert à tout le monde donc il n'y a plus besoin d'invitation donc viendez sur blouskye c'est
c'est plus serein comme climat que twitter pourquoi tu fermes ton compte tu voulais pas que monica
retweet ou laïc ou je sais plus quel prénom féminin finance en part à finissant par à
et rica monica et tout le monde botte en r qui like des tweets monica 53 22 avec les
les 5 chiffres à la fin tu vois non je sais pas en fait j'ai passé beaucoup de temps parce que
je veux voir mon compte en 2007 donc ça fait un paquet de temps mais là sur mon téléphone je
crois que j'ai limité à 5 minutes par jour et depuis le début de l'année je crois que je les
atteins même pas dans la journée donc tu t'es mis le contrôle parental ouais je me suis mis le
contrôle parental exactement t'es pas le seul à dire qu'effectivement les gens prennent un peu de
distance par rapport à twitter aujourd'hui ben il y a plus de monde c'est effectivement ça évolue
et soit tu passes ta vie dedans soit soit moins effectivement quand tu mesure un peu la valeur
que t'en tirs aujourd'hui ça pose effectivement question ouais ouais c'est après il y a des trucs
sympa les spaces sont encore bonne fonctionnalité je trouve mais c'est voilà fin d'une épreuve
pierre entre autres vous à pierre z sur plein de trucs sur twitter j'ai un mastodon j'ai un blues
qui est un peu l'enfer du multiplexique et un copain d'avant et moi même gwinis du pareil un peu
partout alors plus qu'à un compte mais j'y vais jamais je trouvais que c'était juste twitter en
moins bien et puis dans un petit temps entre soi tu vois mais mais bon voilà donc j'ai mon compte
rien de tout je cherchais mon petit dé pour savoir qui aller faire la musique mais du coup c'est pas
très grave sinon tu veux partager quoi je sais que zavier tu as quelque chose à partager matias
du tout du tout mes goûts musicaux risque je m'aimais fils de matias
moi je les assume donc c'est pas très grave alors matias vas-y ben moi je vous propose une
chanson d'un rapport c'est le crypto berre c'est le monéo extrémiste ok et ben on va se quitter
là dessus merci à tous de nous avoir écouté on vous dit à la prochaine et on se quitte avec
monéo extrémiste par crypto berre à bientôt à bientôt merci salut

Episode suivant:

Scala dans tous ses états, en direct de Scala.IO 2024

Les infos glanées

Je suis une fonctionnalité encore en dévelopement

Signaler une erreur

CleverCloud

Card title

Lien du podcast

Go somewhere