📻 RDO #6 - C'est quoi la supervision d'une infrastructure cloud ?

Durée: 77m4s

Date de sortie: 23/06/2020

Pour nous améliorer, nous avons besoin de mesurer.

Qui dit mesure, dit supervision.

Mais finalement, c’est quoi la supervision ?

Quelle est la différence entre l’observabilité et la levée des alertes ?

Comment s’y prendre pour commencer ?

Comment superviser une infrastructure cloud complète ?

Quels sont les freins à la mise en place ? Pourquoi ne les voyons-nous pas plus souvent ?

Mais surtout, comment sortir du classique seuil d’alerte d’utilisation CPU/RAM qui n’est pas forcément pertinent en fin de compte ?

Et les APM, en as-tu entendu parler ? Non ?

Bienvenue, chers compagnons sur Radio DevOps.

La Baladodiffusion des Compagnons du DevOps.

Le podcast en français dédié à notre mouvement.

Au menu aujourd’hui :

Actu : Comment le changement du mot de passe Wifi a paralysé Google par Erwan
Actu : AWS : Première région en Afrique par DamyR
Actu : La CNCF prend sous son aile le projet Argo par Christophe
Débat : c’est quoi la supervision d’une infrastructure cloud ?

Les liens :

Les échecs en cascade qui ont paralysé Google à la suite du changement de password du wifi : https://landing.google.com/sre/resources/foundationsandprinciples/srs-book/
La première région AWS en Afrique : https://mybroadband.co.za/news/cloud-hosting/349001-aws-cape-town-region-goes-live.html
Starlink, un cauchemar pour les astronomes : https://www.pourlascience.fr/sd/astronomie/starlink-un-cauchemar-pour-les-astronomes-18885.php
La CNCF prend sous son aile le projet Argo :
https://www.silicon.fr/open-source-argo-gitops-kubernetes-337772.html
https://thenewstack.io/argo-the-kubernetes-native-workflow-engine-joins-the-cncf/
Liste de pages de status : https://github.com/ivbeg/awesome-status-pages
Linux htop un remplaçant de top : http://hisham.hm/htop/
Supervision
Pour un serveur :
NetData pour des diagnostics en temps réel : https://www.netdata.cloud/
https://mmonit.com/
Solution SaaS :
https://newrelic.com/
https://www.datadoghq.com/
https://www.dynatrace.fr/
AWS CloudWatch : https://aws.amazon.com/fr/cloudwatch/
Les solutions Libres :
https://www.elastic.co/fr/what-is/elk-stack
https://www.elastic.co/fr/beats/filebeat
https://www.elastic.co/fr/beats/metricbeat
https://www.nagios.org/
https://www.centreon.com/
http://munin-monitoring.org/
https://www.zabbix.com/
Pour Kubernetes :
https://prometheus.io
https://grafana.com
Les APM :
Dynatrace : https://www.dynatrace.com/platform/application-performance-management/
NewRelic : https://newrelic.com/products/application-monitoring
ELK : https://www.elastic.co/fr/apm
DataDog : https://www.datadoghq.com/product/apm/
BlackFire : https://blackfire.io/
Centralisation de Logs
https://www.elastic.co/fr/what-is/elk-stack
https://www.graylog.org
https://grafana.com/oss/loki/
La mise en conformité continue :
https://www.rudder.io

Nos émissions :

📻 Radio DevOps : est l’émission phare animée par des membres de la communauté des Compagnons du DevOps. Dans chaque épisode, nous étudierons l’actualité et nous débattrons sur un sujet de fond.
🛋️️ En aparté : est une émission où je m’entretiendrai avec un invité sur le mouvement DevOps en entreprise.
🎙️ En Solo : est une émission où je serai seul pour vous parler de DevOps ou de Cloud.

📩 Si tu n’es pas déjà abonné, alors abonne-toi pour ne pas rater ces émissions.

💖 Tu peu aussi nous soutenir https://supporter.acast.com/Radio-DevOps

🎁 Télécharge mon antisèche git : http://froggit.fr

💬 Si tu as envie de discuter du mouvement, le plus simple est que tu nous rejoignes dans la communauté des compagnons du DevOps : https://www.compagnons-devops.fr

Crédits

Les podcasteurs :

Christophe Chaudier : consultant indépendant au sein du collectif Lydra. Animateur du podcast de la communauté des Compagnons du DevOps. Son LinkedIn : https://www.linkedin.com/in/cchaudier
DamyR : créateur de nuage DevOps à WeScale, passionné d’open source & de logiciel libre. Son Blog : https://www.damyr.fr
Erwan Ben Soudien : DevOps chez Toucan Toco (ex Deezer, Antelink, Weborama - ex sysadmin 🙂 ) - professeur vacataire à Paris XIII / IUT Créteil. Son Linkedin : https://www.linkedin.com/in/erwan-ben-souiden-8b8084152

L’intro et la fin sont de :

Baptiste Gaillet : FullStack développeur avec une tendance DevOps au Centre Scientifique et Technique du Bâtiment. Après des études dans le son et différents métiers, il a effectué une reconversion professionnelle en 2015 pour devenir développeur (Formation diplômante dans le cadre d’un CIF). Son LinkedIn : https://www.linkedin.com/in/baptiste-gaillet-223832b4

La musique d’intro est “Tupac Lives” de John Bartmann (https://pixabay.com/fr/music)
La musique de fin est “Passport” de Purple planet (https://www.purple-planet.com/passport)
L’image est de Gerd Altmann (https://pixabay.com/fr/illustrations/moniteur-vidiwall-big-screen-œil-1054710/)
Le podcast est sous licence libre : CC BY-SA (https://creativecommons.org/licenses/by-sa/4.0/deed.fr)
Si tu utilises ces contenus dans une publication, merci de nous le notifier dans les commentaires.

❓ Pose-nous une question : http://question.compagnons-devops.fr

💬 Rejoins la communauté : https://www.compagnons-devops.fr

☁️ Suis-nous sur les autres réseaux sociaux :

▶️ YOUTUBE : https://huit.re/compagnons-devops-youtube

➡️ LINKEDIN : https://linkedin.com/in/cchaudier/ & https://www.linkedin.com/company/lydrafr/

➡️ FACEBOOK : https://www.facebook.com/cchaudier

🐥 TWITTER : https://twitter.com/art_devops

📷 INSTAGRAM : http://instagram.com/cchaudier

🌐 Les Compagnons du DevOps est une initiative de Lydra : https://www.lydra.fr

#DevOps #Infrastructure #Supervision #Monitoring #Cloud #Nagios #Zabbix #Centreon #DataDog #Prometheus

Hébergé par Acast. Visitez acast.com/privacy pour plus d'informations.

Bonjour à tous et bienvenue dans ce nouvel épisode de Radio DevOps. Je suis toujours aujourd'hui
avec Erwan et Damir. D'habitude on a l'occasion de se présenter mais là en fait je vais vous
renvoyer aux petits épisodes que j'ai préparé avec Erwan et Damir et à chaque épisode va
présenter chaque podcasteur et comme ça quand ça va tourner on aura des nouveaux épisodes à écouter
petit à petit et ça permettra de fluidifier Radio DevOps. Bah écoutez la première chose que j'ai
à vous dire c'est qu'on est assez surpris parce qu'on a dépassé les 3000 téléchargements,
on va tout doucement vers les 4000 téléchargements alors ça c'est exceptionnel donc bah merci à
tous et j'espère que l'émission vous plaît et qu'elle continuera à vous plaire. Zip zip zip bon en
fait ce qui se passe c'est que je montre cet épisode de podcast un mois après l'avoir en
registré vous serez tous sur les coulisses de Radio DevOps et en fait bah ce qui se passe c'est
qu'aujourd'hui on a presque atteint les 6000 téléchargements donc voilà je vais juste faire
un petit point un petit point comment dire de précision sur les chiffres c'est que en fait
c'est le confinement a fait exploser Radio DevOps et du coup je pense que de plus en plus
nombre de nous écouter donc voilà vous pouvez reprendre l'épisode sans aucun problème. Zip zip
zip. Aujourd'hui on va aborder comme d'habitude les actualités et puis on va vous parler d'un
des piliers du DevOps qui est la supervision ou le monitoring puisque quand on fait de l'amélioration
continue on doit mesurer pour pouvoir savoir ce qu'on va améliorer mais avant ça les actus. Alors
Erwan tu nous as préparé un petit quelque chose et c'est une actus c'est plus une anecdote qui
s'est passé chez Google qui a été publié dans un dans un livre qui qui qui ont mis en libre accès
qui s'appelle building secure and reliable systems et dans lequel enfin c'est un bouquin de 500 pages
dans lequel ils reprennent tout un tas de de bonnes pratiques de retour d'expérience et de
de mise en place de process qu'ils ont eu chez eux pour pour tous les sujets sre DevOps etc. Alors
bien sûr une bonne partie de ce qui est décrit dans dans ce livre ça ça nous intéresse mais
c'est des choses qu'on peut difficilement imaginer ou mettre en place puisque on travaille pas tous
dans des dans des structures de cet envergure là mais ce qui est est rigolo dans dans le bouquin c'est
justement les les quelques anecdotes qui qui sont décrites et il y en a une qui m'a qui qui m'a marqué
qui qui décrit en fait comment le changement d'un de le changement du mot de passe wifi qui est
du wifi qui est distribué dans leur service de transport donc dans leur bus dans les bus google
à San Francisco par exemple commence le changement de mode passe a fait cracher tout un tas de
de choses en cascade et donc c'est ce que je voulais vous raconter donc tout se passe en 2012
et justement les équipes IT décident de changer le mot de passe des du wifi des systèmes de
transport chez google et donc une fois qu'ils changent le mot de passe ils envoient une notification
à l'ensemble des des utilisateurs chez chez google pour leur dire voilà met à jour les crédents
de chale etc ce que font les personnes c'est qu'ils mettent à jour les crédents de chale et puis
idées sauvegard dans le gestionnaire de passeword qui est utilisé par par les employés de google
sauf que ils font visiblement ils font ça globalement pas tous en même temps mais pas loin et
surtout visiblement le système de gestionnaire de passeword n'était pas suffisamment bien
bien designé pour encaisser la charge de toutes ces personnes qui qui faisait le changement de
mode passe et donc du coup le serveur master tombe mais c'est pas grave il ya un serveur secondaire
qui tombe aussi à la main c'est pas grave on passe au serveur au troisième serveur et ce dernier
tient pas la charge non plus donc le service et et cao ça lève une alerte puisque ils ont du
monitoring de ce sujet donc la personne qui est qui est d'astreinte est averti que le service
de en question est tombé sauf que bah il a il a pas trop d'informations sur qu'est ce qu'il faut
faire dans ce cas là puisque c'est un service qui était développé en interne qui est qui est en place
depuis un peu plus de cinq ans sans jamais avoir été jamais avoir eu de problème et donc du
coup il sait pas trop ce qui doit faire il n'y a pas d'oc qui existe donc il décide de comme ce que
font beaucoup de gens dans ces cas là c'est qu'on comprend pas trop ce qui se passe bon on
reboute le service en disant que ça va bien repartir sauf que le il le l'ingénieur d'astreinte
il savait pas mais le le le reboute nécessite une une carte à pousse pour pour pour redémarrer le
service et c'est c'est une procédure assez classique chez google mais bon la personne n'était pas au
courant qui est que la pour tout un tas de services cette carte à pousse est nécessaire et cette
personne qui est d'astreinte et se trouve à new york et en fait visiblement au bureau de new york
les ces cartes à pousse ne sont pas à disposition donc du coup ce qui fait c'est qu'il va appeler des
gens alors je sais plus genre assigné au bureau de ciné qui ont accès aux cartes à pousse de lui donner
un de lui donner un coup de main sauf que bah assigné comme d'ailleurs tout dans tous les autres
bureaux il ya ces cartes à pousse elles sont dans un coffre fort dont les personnes qui peuvent y
avoir accès ne connaissent pas le mode le mot de passe puisque ce dernier était stocké dans le
gestionnaire de de passeport qui vient de tomber donc du coup c'est un peu un peu l'angoisse il ya
finalement quelqu'un qui arrive à qui en fait connaissait par coeur le mot de passe du coffre fort
qui arrive à récupérer une carte à pousse qui qui donc essaie la procédure pour le restart mais
le service ne redémarre pas et surtout le message d'erreur qui qui lui est affiché le et un peu un
peu obscur il n'arrive pas trop à l'interpréter du coup les l'équipe une autre équipe donc c'est
celle de ciné se dit bon bah on n'a pas le mot de passe bon on va forcer le coffre fort parce que
c'est un c'est ainsi enfin on est dans une situation d'urgence et de crise ce que ce fameux
gestionnaire de passeport n'était visiblement utilisé pour tout un tas de services il force le
coffre fort il récupère une carte à pousse donc ils enclenchent la procédure pour le reboot avec
la carte à pousse en la mettant là où il faut sauf que pareil ils prennent la même erreur que
l'autre personne dans l'autre bureau qui avait réussi à avoir avoir la clé et en fait après une
heure d'analyse ils se sont aperçu que la carte à pousse en fait elle était juste pas mis dans
le bon sens et suite à dès qu'ils ont découvert ça ils ont pu restart le le service et tout est
rentré dans l'envej ce qui est intéressant dans cette anecdote c'est de de voir que la confidentialité
des des données bah c'est quelque chose et le partage de secret c'est quelque chose qui
est important donc là j'ai et de toujours très délicat donc avoir des solutions de gestionnaire
de patients ça a du sens c'est quelque chose de très critique mais par contre après le rendre
disponible les informations donc là que ce soit dans le cas de cette fameuse carte à pousse ou
des choses plus primaires comme bah la doc qui va permettre de décrire la le le le le tuto à suivre
pour pour réparer cette situation d'urgence mais en fait tout ça n'était pas forcément hyper
clair pour tout le monde ça a visiblement pas été testé non plus puisque les différents membres de
la chaîne on voit par exemple la personne d'astrinte était pas ne savait pas pour le coup des
cartes à pousse par exemple donc on voit qu'il y a aussi bien techniquement parce que un service
aussi important qui visiblement est mal saisé bah c'est quelque chose de grave mais aussi humainement
avec la doc la gestion de la crise etc montre que il y a plein de choses qui qui ont fail que ça a
créé une cascade assez incroyable et que pendant un peu plus de deux heures il y a tout un tas de
services qui ont été impliqués et je trouvais que c'était rigolo c'est toujours sympa de voir que
même chez des des grandes boîtes qui qui sont censées driver un petit peu l'univers dans lequel
on évolue bah bah voir ce genre de louper et c'est quelque chose qui est toujours assez rigolo à lire
et donc moi ce que j'ai retenu en lisant ça c'est que dès qu'on fait des procédures d'urgence
c'est bien de d'en créer mais faut tout de suite les tester avec des avec des gens qui ont aucun
aucun regard dessus pour justement découvrir les choses un petit peu de façon vierge découvrir
les choses qui est auquel qu'elle nous on n'aurait pas pensé qu'on aurait pu oublier dans notre
procédure ou dans notre script ou autre je sais pas ce que vous en pensez toi d'amir tu as déjà eu ce
genre de situation un peu triptique alors moi j'ai fait je fais pas mal d'exploitation quand même
dans le début de ma carrière et oui j'ai eu affaire à des à des incidents des problématiques
sur des choses que personne a touché depuis cinq ans les gens qui avaient touché avait démissionné
ou échangeé de poste donc c'est vrai que c'était un peu un peu compliqué dans les cas là et ça
c'est vrai qu'on en cette histoire est très symptomatique si j'ose dire d'un problème qui
touche beaucoup d'entreprise je pense c'est de se dire ça marche on sait peut-être pas comment mais
ça fonctionne ça tourne ça tombe pas en erreur on va laisser de côté on y touche pas et j'ai une
anecdote qui était assez drôle au final je sais pas du coup s'il y a des vrais où c'est juste une
une rumeur mais qui disait que justement chez google on devait sur les services il devait pas avoir
un uptime de 100 pour 100 pour qu'il soit habitué à relancer le service et qu'il connaisse la
procédure et ça me paraît intéressant parce que souvent bah le truc qu'on connaît pas qu'on
touche plus parce que c'est stable on touche pas bah le jour où ça pète ben on sera vraiment perdu
et surtout si c'est critique au mieux d'avoir un down time de 10 minutes prévu une fois on aura
un down time de plusieurs heures au mauvais moment ça ça malheureusement c'est ce qu'on
voit ici donc je pense que c'est une philosophie de se dire je sais il y a un truc qui tourne je
sais comment le remonter si ça pète et je le teste de temps en temps c'est une bonne chose après
là il y a aussi effectivement facteur pas de chance mais c'est toujours intéressant effectivement
ce genre de ressenti et de revue pour voir que bah non en fait les choses peuvent mal tourner on
peut avoir des merdes à tous les niveaux et on peut être dans la pire des situations donc je
pense que c'est intéressant et rassurant aussi de se dire qu'eux aussi le vivre le vivre et vivre
avec moi aussi j'ai fait pas mal d'exploit dans ma vie et ça m'évoque deux choses que tu dis
etre 1 la première c'est que bah il faut pas avoir peur de l'échec et surtout faut faut vraiment
prendre l'échec comme une manière vraiment de s'améliorer et prendre ça avec philosophie même
si quand t'es en pleine astrinte gérer ça ça doit pas être facile surtout que ce que tu décris
c'était assez complexe mais vraiment prendre ça prendre l'échec et et améliorer en fait les
process après cet échec là et alors j'ai fait un petit dessin pendant que tu ne racontais l'histoire
et en fait je me suis aperçu qu'il y avait une interdépendance assez flagrante entre le coffre
fort et le mot de passe du coffre fort et le gestionnaire de mot de passe puisque le gestion de
mot de passe contient le mot de passe du coffre fort mais le coffre fort contient la carte à
puce pour dévarer le gestion de mot de passe et du coup je me dis là il y a eu un raté je pense à
mon donné et en effet le fait de retester les procédures ça aurait permis de voir ça et ça
m'amène à la deuxième chose finalement que que je veux mettre en exergue c'est que une procédure
si elle a jamais été testée en fait faut considérer qu'elle existe pas c'est comme le
backup ou la sauvegarde sauvegarder c'est bien mais alors il faut restaurer parce que si on fait
pas le test de restauration la sauvegarde il faut considérer qu'elle existe pas d'amir tu vas
nous parler d'un autre d'un autre grand puisque tu vas nous parler d'amazon web services oui je
vous parlais du coup d'un dingue à femme même si on les aime pas toujours c'est quand même intéressant
de voir les mouvements qui sont faits de leur part alors c'est une nous qui est assez courte mais
globalement à WS a ouvert une nouvelle région du coup sur le continent africain c'est la première
région qui l'ouvre sur ce continent donc ce qui est intéressant c'est que j'ai une région ça
représente trois data center différents ce qu'on appelle les az donc c'est quand même pas juste
un serveur dans un coin c'est quand même une infrastructure assez conséquente et à savoir
que microsoft avait déjà ouvert une une région sur le continent africain du coup l'année dernière
donc il y a un peu près un an aujourd'hui donc c'est fait qu'on a quand même deux géants de la
tech qui sont présents avec des data center en afrique et donc c'est tous les deux situés à
joey aisbourg donc plutôt au sud de l'afrique mais c'est je pense c'est une bonne chose ça va
permettre déjà de consolider le réseau du coup et les interconnections avec le continent africain
qui sont pour l'instant il me semble de mémoire dans les interconnections au niveau des caps marins
les plus faibles donc je pense que l'arrivée des data center va permettre d'améliorer un peu ça et
va permettre aussi peut-être à des entreprises du coup en afrique de pouvoir travailler un peu plus
sur la nouvelle technologie à pouvoir avoir accès à plus facilement certaines ressources donc je
pense que dans tous les cas c'est une bonne chose à ce niveau on voit depuis quelques années ce que
c'est pas nouveau qu'à wes allez en afrique vous imaginez bien que c'est pas une décision qui
se prend en un quart de seconde amazon est présent quand même depuis 2004 en afrique du sud et
beaucoup de boîtes commencent à être présentes là bas notamment dans les gaffes à moins aussi
facebook et google qui sont qui sont assez présents notamment avec des projets comme lune qui est
projet d'alphabet donc de google qui veut placer des ballons connectés des ballons dans l'espace
pour interconnecter le kenyan notamment donc c'est assez intéressant de voir un peu cette ce
mouvement qui fait en ce moment de la part des acteurs notamment des gaffes à me sur le continent
africain pour justement du coup lancer peut-être de nos nouveaux business ou des choses comme ça je
sais pas ce que tu en penses toi christophe même si tu aurais préféré je pense à un acteur peut-être
plus local moi je j'aurais préféré un acteur plus local et je suis très pour l'émancipation des
acteurs locaux d'ailleurs je pense qu'il doit y en avoir en afrique des acteurs locaux après
je c'est un territoire que je connais pas je sais qu'il y a beaucoup d'auditeurs enfin pas mal en
tout cas qui nous écoutent d'afrique peut-être qu'ils pourraient nous dire justement ce qui se passe
là bas moi ce que tu es voque ça me fait penser à un autre projet où j'ai entendu parler parce
que j'aime beaucoup l'astronomie et sur twitter je suis abonné à des comptes astronomiques et
récemment il y a eu en fait je sais pas si vous avez entendu parler de starling qui est cette
qu'on dirait ce test que fait tesla non sp6 excusez moi sp6 donc l'entreprise d'ellon musk qui a
lancé je crois une soixantaine de satellites et donc ça fait une sorte de ligne de satellites qui se
suivent et qui permettent justement d'apporter internet au débit là où ils sont en fait le projet
de ellon musk c'est justement d'avoir je sais plus combien de milliers de satellites qui tournent
autour de la planète pour apporter le internet et toi erwin alors qu'est ce que t'en penses de
cette histoire après c'est et c'est bien parce que je mets enfin ça va aider au développement et
ça va créer du taf etc après je suis d'accord avec ce qui avait été dit juste avant c'est
dommage que ça soit pas plus des acteurs locaux qui émergent qui prennent après le corps ce genre
de sujet quoi alors la troisième news c'est en fait je vais vous parler de la cncf plutôt un projet
qui arrive à la clôte native computing foundation parce que j'ai fait une petite découverte en
fait je connaissais pas du tout depuis avril en fait il ya hargo un projet un projet qui vient
juste d'arriver dans les projets à cubi et j'en avais pas du tout entendu parler avant ça et
c'est un projet qui est plutôt lié à le continue de déploiement donc le déploiement continue
c'est un projet qui est assez récent puisque en fait c'est en novembre 2015 qu'il a hébergé qu'il a
émergé mais en interne et il a été publié en 2017 en août 2017 et donc hargo c'est quoi et c'est
là où ça va devenir très intéressant puisque hargo en fait c'est un groupe de quatre produits le
premier c'est hargo workflow c'est le produit historique en fait c'est c'est un produit qui
permet de faire un enchaînement de jobs un peu comme une pipeline ou carrément comme une pipeline
à l'intérieur de Kubernetes alors je l'ai pas précisé mais hargo c'est un projet qui s'installe
dans Kubernetes donc le workflow en fait va nous permettre de faire tout un enchaînement et tout un
ordonnancement des jobs le deuxième produit j'ai vu quelques démos et ça s'appelle hargo cd donc
continue de déploiement ça nous permet de faire du githops en mode pool donc on va récupérer les
informations de notre gith pour pouvoir installer et déployer des applications et hargo cd il est
compatible avec les manifestes Kubernetes il est compatible avec customise il est compatible
avec elm casonnet jsonnet et on peut même apporter notre propre méthode de déploiement puisque il
y a une gestion de plugins cette partie là moi c'est celle que je préfère on a aussi hargo
rollout qui apporte des nouvelles stratégies de déploiement puisque pour ceux qui ne connaissent
pas Kubernetes il y a deux principales stratégies de déploiement qui sont recreate qui permet d'arrêter
en fait une application et de la recréer ou rollout qui permet en fait de déployer petit à
petit les applications on crée des pods des nouveaux pods avec la nouvelle version de l'app et
puis on arrête les anciens pods et puis l'application en miq comme ça et ben hargo rollout il apporte
deux nouvelles stratégies le blue green donc l'exploitation parallèle de deux applications
donc la v1 et la vn moins un et canary qui permet de faire une sorte de load balancing sur une
population restreinte d'utilisateurs où on va en fait router une partie de nos utilisateurs vers
la nouvelle version et enfin le dernier produit c'est hargo event hargo event en fait il va permettre
de déclencher des traitements n'importe quel traitement sur des événements et la source de ces
événements ça peut être donc soit des événements qui viennent d'argo workflow ou d'argo rollout soit
des événements qui viennent de guide de webbook de création d'objets Kubernetes des événements
qui peuvent venir de s3 de tâches planifiées aussi ou tout un tas d'autres choses comme les services
de de messaging où on peut même créer aussi pareil avec des plugins des custom des clencheurs et
hargo event en fait il va nous permettre de déclencher soit hargo workflow soit hargo city soit
plein d'autres choses donc moi je voulais savoir si vous avez déjà entendu parler d'argo avant cette
news moi pas du tout vraiment je ne même pas même je sais je pense que c'est jamais arrivé dans
un de mes feed de news que je suis quoi ouais c'est un peu pareil mais je n'ai pas entendu parler
c'est pas la fois que j'en entends j'entends parler donc j'ai pas vu une une une dans une news
d'un autre après si c'est pris en charge par par le cncf c'est que le projet doit être quand même
assez conséquent et doit être quand même déjà développé donc à voir le projet il en est fait
assez développé moi je compte le tester d'ici la fin de l'année je vous en ferai des retours et en
tout cas les vidéos que j'ai vues sur le net sur hargo me laisserait veur parce que ça a l'air
vraiment très très puissant on va pouvoir passer au sujet principal de notre podcast qui est la
supervision le monitoring et d'autres petites choses alors quand on parle de supervision la
première chose qu'on a en tête c'est mais qu'est ce que c'est la supervision du coup er one pour
toi qu'est ce que c'est que la supervision qu'est ce que c'est ta définition de la supervision
je dirais de façon vraiment très méta et général je dirais que la supervision c'est savoir donner
un état à un instant t d'une une ressource d'un un process d'un workflow ou d'une machine par exemple
de façon très méta c'est ce que je dirais et toi d'amier t'es une petite définition à nous donner
je dirais un peu à même chose pour moi la supervision c'est de connaître l'état d'un service à
un moment donné que généralement quotidien et d'être alerté en cas de soucis mais ça je le
mettrais des fois même à part je mettrai plus dans l'alerté je suis en je pense à différencier
les deux c'est vraiment par là de l'alerté tout à l'heure moi j'ajouterai un petit plus la
supervision ça nous permet aussi de visualiser ce qui se passe parce que être au courant on peut
l'être de manière textuelle mais pour moi il y a un côté visualisation qui peut être très
intéressant dans la supervision en fonction des outils qu'on va utiliser et d'amir tu nous parlais
en préparant l'émission tu nous parlais de la différence entre monitoring et observabilité est
ce que tu peux nous en dire un peu plus là dessus effectivement donc du coup comment disais
ce serait que la supervision c'est quand même quelque chose qui vous permet d'avoir un état qui
n'est pas forcément très précis qui va être binaire globalement c'est un peu c'est un peu ce
que vous utilisez classiquement sur les infras maintenant un peu anciennes ou les infras d'essieu
un peu classique c'est vous par exemple j'ai un curseur qui me dit si mon disque dur il est occupé à
moins d'un pourcentage ou pas et du coup qui est soit globalement vert ou rouge il y a souvent un
état intermédiaire mais globalement on fonctionne sur un état qui est plus ou moins binaire et qui
va être attaché à un service donc généralement dans monitoring on dit on surveille un service qui
associé à un host par exemple disque dur qui est associé à une machine on pourrait surveiller
aussi la rame qui est associé à une machine etc donc on a cette composite et que c'est ce
combo entre guillemets du service et host et on va surer service avec un état binaire et du
coup pour en tout cas pour moi ce qui va être adéfinant de l'observabilité c'est quelque chose
qui va être plus complet qui est beaucoup utilisé aujourd'hui c'est qu'on veut pas juste un état
binaire on veut avoir des métriques donc des métriques sur un tas de choses le maximum possible
j'aurais envie de dire donc au ce site l'utilisation du réseau à par exemple le nombre de messages
dans une qsqs et à partir de là on va en déduire un état donc c'est à dire plutôt que dire ce service
il est up ma machine elle est up donc mon service il est up là on va agréger des ressources des
métriques et on va en définir à partir de ces métriques un état et un état de santé qui n'est
pas binaire on peut par exemple se dire j'ai beaucoup de cul dans ma file sqs mon application arrive
à être épilé c'est un peu lent c'est juste qu'on a une montée en charge mais on va pouvoir
une chose de plus précis à ce niveau là donc c'est pour moi là c'est un peu l'évolution
à dessus et c'est de plus en plus utilisé ce qu'a que le micro service en fait avoir juste un
système de up ou down bas globalement c'est c'est plus suffisant en fait pour pour ce type de service
après je sais pas si vous voulez rajouter quelque chose à cette définition par exemple toi à
r1 tant tu pense qu'il y a des choses encore à rajouter sur cette nouvelle méthodologie non non
et je suis assez d'accord avec ce que ce que tu dis moi je de façon un peu globale je dirais juste
c'est c'est que tu as c'est ça c'est que tu as tout un tas d'information qui vont te permettre
de de en fait de vraiment suivre ton activité un peu un peu plus au détail et souvent ce que
ce qu'on entend par observabilité c'est enfin moi je l'associe en tout cas plus à la notion de
vraiment de de services mais au sens au sens est-ce que ça marche ou pas plutôt que que lié à des
ressources je sais pas cpu ram disque etc c'est à dire que je veux savoir si mon micro service a est
fonctionnel et que tout est ok et ben je le pour moi l'observabilité c'est je vais avoir cette
info avec justement le le temps de traitement de moyens de mes messages le le nombre d'erreurs
qui l'a sorti sur les dix dernières minutes etc en effet moi j'ajouterai en fait que pour moi
la supervision manière globale et l'observabilité ça nous permet d'avoir en fait l'état de santé
de notre système d'information ou de nos applications et sans cette supervision en fait on
est finalement aveugle et la seule chose qui qui nous rappelle que le service ne marche pas c'est
les utilisateurs et quand ils appellent le support ils disent ça marche pas si on n'a pas mis en
place cette supervision on n'a pas de vision justement de l'état de santé globale de notre
application de notre système d'information du coup si on veut commencer à mettre en place
une supervision parce qu'on n'en a pas ou parce qu'on commence tout simplement vous par
quoi vous commencez en fait la première chose que vous faites c'est quoi quand vous démarrez une
application et que vous voulez mettre la supervision dessus moi je peux parler d'un
truc que j'ai fait assez vite dans la boîte où je travaille c'est que en gros on chaque
chaque client à sa propre stack donc elles sont sa propre pays qui parlent à sa propre base
de données et son propre service de queue etc et donc on a je sais pas 250 300 stack
déployés en prod et ben en fait pour monitorer facilement la fonctionnel le côté fonctionnel
de chaque stack c'est donc est ce que est ce que tout est prêt pour pour ça fonctionne le premier
truc que que j'ai fait avec avec l'équipe c'est on a créé une page de statut et en fait quand
ping cette page la page va va faire quelques checks du type connexion à la DB connexion
server de queue le nombre de de workers qui tourne il va vérifier enfin il y a un petit
trick sur la pour vérifier que les versions sont compatibles etc et en fait si un de ces tests
n'est pas ok bah ça ça nous renvoie une un code statut à différentes 200 donc nous on peut
monitorer on peut monitorer comme ça et en fait à chaque fois qu'on déploie une stack bah en fait on
crée automatiquement un test sur sur sur cette page de statut et donc du coup en fait pour pas cher
on a on a un monitoring pour pour chaque stack de nos clients qui est automatisé et qui est et qui
nous permet d'avoir un peu de un peu de supervision pour pour commencer qui est pas cher à mettre en
place du coup c'est juste une status page où tu vois c'est up ou down le système ou il y a des
métriques du coup qui sont quand même agréés alors il y a quelques métriques mais qui sont très
très très fin c'est typiquement le volume de données qui est que que que la stack gère ou des
choses comme ça c'est c'est très léger et je pense qu'on peut justement le là on parlait de
comment on fait pour commencer bah pour commencer je pense avoir ce genre de système c'est pas mal
parce que ça te permet d'avoir la visibilité sur ce qui se passe sur une infrastructure qui peut
peut-être grandir assez vite et donc à un important moment on est en mesure de de
pouvoir dire tel client et que tel client est ok ou chaos mais et actuellement on remonte quelques
métriques mais qui sont quand même très légère je pense que l'étape d'après ça sera d'exposer
des choses beaucoup plus avancées comme on peut le faire avec des fin tout ce qui est prometté ou
compatible ou tu as des détails beaucoup plus prononcés que ça moi ce on l'a fait on le fait
régulièrement en effet c'est une page de statut une page de check en fait qui permet de savoir soit
à travers la supervision s'il servit s'il est up soit carrément à travers le cloud provider de
savoir si la machine elle doit être recyclée ou pas par exemple si je prends exemple de
Kubernetes on va dire je parle beaucoup de Kubernetes aujourd'hui mais c'est le fameux
l check des pod s'il est pod en fait il répondent pas à une url particulière et bah Kubernetes
il va stopper le pod il va en démarrer un autre c'est ça que tu évoques quelque chose qui nous
permettrait de savoir que l'application est bien état de marche ouais bah ça c'est le premier
je trouve que c'est des premiers step à mettre en place au plus vite quand on doit monitorer un
service ok mais ça c'est c'est bien si on a justement un service qu'on si on a un service
qu'on déploie ou qu'on sur laquelle on a la main mais si on est dans une vieille application monolithe
sur laquelle on n'a pas forcément la main pour pouvoir modifier en fait les pages de l'application
par où vous commenceriez vous pour justement mettre en place une supervision un peu plus légère
du coup alors moi je vais je vais donner un peu mon avis à dessus c'est vrai que moi je vais pas
répondre à la question précédente du coup globalement il ya quand même deux cas je me
permet juste de rappeler ça c'est si jamais on développe l'application moi on est en cours de
développement et de déploiement de l'application auquel cas on peut avoir une discussion avec les
développeurs et travailler je pense que c'est ce qu'il faut faire travailler que pour qu'ils nous
exposent des métriques importantes les traités déterminer ce qui est important ou pas je pense
que c'est important de le faire et si effectivement on arrive sur quelque chose qui est déjà existant
à plus fortiori à moins à moins l'application de type monolithe là ça va être effrayant
plus compliqué on va pas pouvoir mettre de pages spécifiques exposés vraiment de valeur
après on va essayer de faire un peu au cas par cas si on est sur du java on peut peut-être récupérer
des valeurs intéressantes au niveau de la giv m et encore faut savoir bien les traités après en
déduire les bonnes choses mais ça peut être aussi intéressant du coup de plus tester tout ce qui
va être latence et mal il a tendance des différents services les aillots les choses un peu classiques
vu qu'on aura on sera limité à ça pour en déduire un fonctionnement d'application savoir
s'il est bon ou pas bon ou moyen à dégrader mais je pense qu'on va pas pouvoir aller vraiment
plus loin si on n'a pas la possibilité de d'exposer des données supplémentaires niveau dev je pense
que c'est vraiment important aujourd'hui donc oui pour un monolithe je pense qu'il faut voir ça un
peu à l'ancienne entre guillemets si je veux se dire moi je me souviens que dans une ancienne
vie il y avait aussi un monolithe où personne pouvait trop toucher pour rajouter justement ce
que exactement ce que tu décrivais des exposés des informations et tout mais par contre et du
coup on ne savait pas trop comment monitorer ce truc là c'est un peu galère et tout et en tout cas
à minima ce qu'on ce qu'on avait fait mais peut-être qu'on va l'aborder plus tard mais c'est de
monitorer l'activité des logs et en fait les logs ils sont de bonne vécalité on peut en discuter
mais par contre on nous espérait que quand il se passe mal quand des choses se passent mal c'est
bien en erreur quand quand il y a des warnings etc c'est tagué avec warning et du coup ne serait
ce que de suivre la volumétrie autour de ça ça peut déjà donner un premier un premier
indice de comment comment ça se passe sur sur ton monolithe est ce qu'il est en train de générer
un milliard d'erreurs en boucle est ce que enfin ou est ce que tout se passe bien ça du coup pour
revenir un peu à la question du début c'est comment comment comment commencer bah dans le cas
idéal je pense qu'il faut avoir des pages de statut et qui exposent en plus des informations un peu
un peu poussées et mais en tout cas à minima ça me paraît mandatorie de vraiment suivre la de
vraiment suivre les logs sur sur sur des services qui n'exposent qui soit qui n'exposent rien soit
sur lequel on sait qu'on pourra pas faire de modifications pour avoir plus d'informations
alors la première chose que je fais en fait pour démarrer rapidement dans un nouveau projet
ben j'installe tout simplement des produits de supervision qui s'installent juste sur le
serveur avant de pouvoir faire autre chose notamment alors si vous connaissez pas en ligne de commande
alors c'est pas vraiment du monitoring parce que c'est juste pour avoir l'état en live de ce qui
se passe sur le serveur mais à stop moi je vous le conseille si vous le connaissez pas c'est un très
bon en plaçant de top mais surtout en fait j'installe net data maintenant que j'ai découvert net
data donc j'installe net data surtout les serveurs que je lance où vous avez aussi un
autre équivalent qui s'appelle monite ça permet d'aller très très vite et d'avoir pas forcément
un point central pour tout regarder mais au moins sur chaque serveur vous avez l'information et
comme c'est pas dépendant de l'application on peut l'installer sur le système ensuite ce que je
fais aussi c'est si je vais avoir un point central et qu'en fait on doit aller très très vite dans
les projets je prends une solution sas donc là au tout début je prenais une uroli qui est puis
maintenant je vais plutôt vers datadog que j'apprécie plus particulièrement et j'installe
datadog sur les serveurs parce que ça va très vite il n'y a pas il n'y a pas besoin de créer
l'infra il y a juste besoin d'installer un agent ça se fait en 5 minutes et puis il y a des roulons
cibles pour ça donc ça permet d'être enfin moi du coup je le mets dans toutes mes dans tous
mes serveurs aussi et après l'étape d'après ce sera d'avoir sa propre sa propre infrastructure
de monitoring est-ce que vous vous vous lancez aussi avec des sas quand il faut aller vite au début
des projets pour changer les choses ou est-ce que vous partez directement sur une infra complète
ou est-ce que même vous avez votre infra complète de supervision moi actuellement on a on a enfin
j'ai vachement poussé pour qu'on ait notre propre infra là dessus si ça ça revenait nettement
moins cher est censément pour des pour des histoires de coups et que j'avais déjà tous les
scripts qui allaient bien pour déployer une stack lk qui qui va bien et donc du coup le l'équivalent
de l'agent que t'installe sur sur tes serveurs donc lk c'est le triptique élastique search
l'obstache et qui bannat donc élastique search pour la base de données l'obstache pour espèce de
et on va centraliser en lui envoyant les les log et qui est bannat pour faire la visualisation et
donc du coup les agents qu'on installe sur les sur les serveurs c'est file bit pour remonter les
log qui fait le rôle d'un six log en gros et mes tric bit qui va renvoyer l'équivalent de ce que
je pense que tu installes enfin que le même type d'information que ce que tu as avec l'installation
d'un d'un agent comme data doc et au final c'est ce que je trouve pas mal dans cette dans cette
stack c'est que c'est c'est pas trop compliqué à se quitter puisque en gros la faire se quitter c'est
juste savoir faire se quitter élastique search donc même sans être un expert de la de la solution
c'est pas très très compliqué à faire et puis après qui qui baisse enfin l'obstache et qui bannat
c'est quand même assez facile à maintenir donc du coup moi j'aime beaucoup cette cette stack là
je me permets de te poser la question je suis désolé d'amir vous êtes vous êtes combien dans ta
boîte parce que moi c'est souvent je suis tout seul je suis le seul ops donc maintenir la totalité
des trucs c'est un peu compliqué pour moi mais vous êtes combien pour justement vous permettre
d'avoir un olk à ce service en interne par exemple je suis le seul dévops full time et j'ai
aimé dans l'équipe mais par contre dans l'équipe back end je pense que tout le monde saurait reprendre
et relire ce qui a été fait sur la stack lk aujourd'hui on va dire que c'est moi qui initialiser
la mise en place de tout ça mais si si je suis pas là je pense qu'il n'y a aucun souci enfin
d'ailleurs c'est je peux même le dire il y a même quand j'étais pas là il y a eu aucun souci pour
pour pour pour pour maintenir pour maintenir tout ça et ouais enfin on en est globalement
content ça pourrait être nettement mieux mais en tout cas pour pas trop cher parce que clairement
comme j'avais déjà fait ça auparavant le projet il a démarré en deux jours en deux jours on avait
on avait toute la stack et et et on avait déployé les trucs et restait que les que les logs
éventuellement qui qui devaient être par sé il fallait rajouter les règles qui allaient bien mais
sinon on a on a démarré hyper vite sur ce sujet quoi du coup elle serait que de mon côté en étant
étant consultant j'ai tendance à m'adapter en fonction des besoins clients du contexte client
et donc ça différencie assez régulièrement là actuellement on est plus sur du full cloud
donc on est sur du cloud watch ça fait ça fait le taf globalement et ça d'avantage de pas
multiplier les outils quand on est déjà sur aWS qui est déjà assez assez complet quand même
comme la complète comme plateforme donc c'est plutôt plutôt pas mal ensuite ouais pour les
solutions ça c'est vrai qu'il y a datadog après datadog le problème c'est que ça va vite mais
la facture va très vite aussi moi j'ai trouvé que c'était ça ça allait beaucoup trop vite
niveau facturation donc je pense ça pas trop l'utiliser ce que je retrouve assez souvent et
assez régulièrement moi je travaille sur plus sur des très gros projets donc on est à peu près
40 50 en fonction des toutes les équipes confondues qui s'occupent des diverses parties on va
retrouver souvent du dinatrace c'est vrai qu'on a parlé assez de manière assez transparent de aussi
bien la supervision de l'observabilité mais aussi du log management notamment là avec la solution
de lk donc c'est vrai que c'est quelque chose qui est complémentaire des logs et qui est un sujet
à part qui est le log management et du coup généralement les outils intègrent les deux par
exemple dina dina trace permet ça fait du sas et ça fait aussi du self host mais c'est assez lourd
et assez cher et ça va vous permettre du coup de faire du monitoring de l'observabilité et de
et du log management et de la p m donc de la supervision au niveau de du fonctionnement de
l'applicatif mais ça je pense qu'on y reviendra un peu plus tard dans le dans le podcast c'est
assez intéressant pour ça et ce qui est assez intéressant c'est qu'il y a un peu d'intelligence
dedans c'est à dire il va agréger automatiquement il va faire de l'auto discover on le pose par
exemple vous avez une infrastructure vous le posez à un endroit dans l'infrastructure il va
faire de l'auto discover sur toutes les interactions il va identifier une première cartographie
automatique et il va commencer à essayer de définir des alertes ou des symptômes d'alerte donc
je prends un exemple vous avez demain un incident parce que il y a eu une surcharge par exemple
je reprend l'exemple c'est un exemple facile sur un rabite mq bah lui va identifier que vous avez
eu un incident qui est lié à ça et du coup les prochaines fois quand il va commencer à voir ce
rabite mq en fait il commence à empiler et que l'application n'arrive plus à scale elle
arrive plus à dépiler il va pouvoir vous prévenir et va dire attention ça c'est quand même une
alerte qui est dangereuse elle est critique donc ça c'est assez intéressant chez dinatras après
c'est un produit qui est très lourd c'est vraiment déployé le char d'assaut donc c'est on
est sur des plus petites applications des plus petits cas j'ai tendance à bien aimer le combo
du coup de prometteuse d'ina prometteuse c'est graffana et utilisé du coup bah comme les air one
une stack lk pour ce qui est log management c'est un peu plus on va dire déjà c'est self host donc
c'est c'est quelque chose qui est pas mal dans beaucoup de situations et c'est quelque chose qui
marche très très bien du coup et qui est assez connu donc il y a beaucoup de ressources il y a des
rancettes anti-cibel et des choses comme ça donc c'est c'est vraiment top on va revenir sur les
solutions je sens que ce podcast va être long donc oui tu fais bien de le dire mais en effet
quand on commence avec des sas ça monte la facture monte très vite et du coup c'est très vite il
faut penser le après c'est à dire que pour moi la première marche c'est hop on installe un sas
la deuxième marche c'est ok et dans trois mois qu'est ce qu'on fait parce que dès qu'on a trois
quatre cinq dix machines ça commence en effet est très très cher l'autre question qu'on peut se
poser aussi c'est que finalement la supervision c'est pas forcément répandue autant qu'on pourrait
le penser et comme tu nous l'as suggéré d'amir c'est mais finalement pourquoi est-ce que si c'est
pourquoi est-ce que ça nous repousse de mettre en place une supervision alors que finalement c'est
des pistes là dessus alors je pense qu'il ya une première chose qui est très bête et qui est peut-être
même je pousse un peu on va dire mais qui est psychologique et qui est beaucoup associé ça en fait
aux alertes à voir en fait une réalité ils ont peur d'être dérangé et de passer leur temps à
finalement répondre à des alertes plutôt que faire avancer certaines choses je pense qu'il y a un côté
inconscient là dessus et mine de rien c'est un métier la supervision moi c'est un métier
on généralement tend à le faire le faire aussi mais c'est un domaine qui à part entière qui est
qui demande des connaissances qui demande du temps et je pense que les que les gens du compte
c'est un peu à en avoir un peu peur même si on peut commencer assez progressivement entre guillemets
de façon dans notre métier c'est ça on itère on commence quelque chose de simple on a
meilleur et on a meilleur et il y a aussi une autre chose et ça c'est une chose qui est valable pour
beaucoup de domaines mais je pense que dans beaucoup de projets en fait on a tendance à avoir un mauvais
symptôme qui est de se dire et c'est pas forcément les textes et plus les chefs de projet de se
dire on a un projet a forcément un projet on sait tous on va pas se le ré il va être en retard
c'est comme un construction de maison c'est comme plein de choses c'est des projets qui ont du retard
parce qu'ils sont très gros et ils ont une nature imprévisible donc on va avoir du retard et en fait
ce qu'ils vont faire c'est que le chef de projet il va essayer de raccourcir le délai pour pouvoir
livrer quelque chose et lui bah son client il voit pas le monitoring bah il voit pas la documentation
il voit pas l'optimisation lui ce qui voit c'est que ça marche qu'il a sa page d'affichée où son
application qui run et je pense que du coup on a tendance à ils ont tendance du moins la
la on va dire l'organisation globale a tendance à essayer d'un peu compresser ces étapes de
monitoring ou un peu les pousser de côté et du coup on a soit peu de temps soit pas de temps pour
les faire dans certains cas je dis bien en certains cas parce que c'est vraiment pas la situation
adéquate et faut pas hésiter je pense à en parler à remonter que c'est un problème de pas avoir
du temps qu'on s'accrasse et je pense que du coup ça n'aide pas en fait dans dans ce contexte à
travailler sur ce point qui est malheureusement trop souvent négliger je sais pas si aroïne
t'as d'autres idées sur des choses qui pour influer sur sur le temps qui a non mais je pense que
c'est un peu comme beaucoup de de sujets c'est que c'est des sujets qui sont longs et complexes et
effectivement tu es comme tu de façon un petit peu un petit peu cliché c'est pas des features
qui sont développées quand on développe une page de statut donc du coup je pense que c'est juste
parce que c'est pas dans beaucoup dans beaucoup de cas par non c'est pas client tracing et du coup
on met ça un petit peu sous le tapis quoi mais pourtant il y a enfin avoir des bons logs à savoir
savoir avoir des des maitrisques intéressantes sur sur son appui c'est pourtant mandatorie pour
être en mesure de l'améliorer et mais c'est vrai que c'est pour le client final c'est pas
forcément des choses des choses primordiales donc peut-être que c'est pour ça que c'est un peu
un sujet qu'on repousse un peu éternel moi je vois plusieurs choses la première c'est en
effet c'est une question de coups parce que mettre en place une supervision ça a un certain
coût c'est un investissement et en effet c'est pas de la fonctionnalité que finalement les
développeurs vont pousser et c'est à mon avis une saur-représentation de nos métiers dans les
équipes de développement produit c'est finalement l'ops on bah c'est quelqu'un qui est loin et
il arrive peut-être après puis pas ce qu'il va faire ça se voit pas alors que pour moi c'est
c'est enfin c'est aussi une vision comptable deuxième chose c'est que c'est aussi une vision
comptable et c'est un des problèmes justement de premièrement entre service entre dev et ops c'est
qu'en effet les devs qui font c'est de la fonctionnalité comptablement ça s'amortit donc c'est pas
des coûts c'est vraiment de l'investissement alors que l'ops lui il est là pour assurer la
stabilité du système donc c'est un coût parce qu'il apporte rien finalement à l'entreprise
ça c'est pour moi une manière de voir les choses qui est biaisée parce que quand on construit une
maison si on met pas de fondation et bah la maison elle va s'écrouler à un moment donné c'est
pareil pour pour une application si on s'assure pas de pouvoir mesurer les choses pour pouvoir
l'améliorer après si on fait si on fait pas les choses pour que l'application soit robuste et
bah finalement l'application on va finir par s'écrouler un jour ou l'autre donc pour moi même
le travail de l'ops il devrait être considéré par les entreprises comme un investissement et d'autant
plus avec le moment des vops parce que le monde des vops on fait des intérations on automatise donc
là clairement il y a vraiment un shift à faire au niveau des entreprises pour penser
comptablement ça et je pense que ce truc là le truc comptable fonctionnalité ça n'aide pas
forcément les entreprises à justement mettre en place cette supervision important on en a besoin
enfin je veux dire si vous si vous voulez savoir ce qui se passe sur votre système d'information
sans supervision vous faites quoi vous je pense qu'il faut aussi je vous rajoute qu'il faut aussi
qu'on y ait de la pédagogie comme tu dis avec le mouvement des vops mais c'est un peu aussi cliché
mais il y a une époque le dev l'ops c'était le mec dans la cave qui touchait au serveur on lui envoyait
des tickets quand il a besoin autrement on lui parlait pas et je pense qu'il y a aussi un vrai rôle
dans la communication et la pédagogie notamment de la part des ops à expliquer justement aux
financiers aux décideurs ou aux chefs de projet du moins aux gens qui font décider des temps à louer
des budgets de leur dire leur expliquer dans leur terme que bah la supervision le monitoring c'est
pas quelque chose d'optionnel c'est quelque chose qui est important pour leur application par exemple
tu prends exemple des comptables mais un comptable il faut lui expliquer que bah sans ça toi tu
sais t'as pas de projection sur sur tes chiffres des années précédent des années suivantes t'as pas de
capia il y a intéressante t'as pas de choses qui permettront d'avancer et dans lui les 6 pour son
budget donc il va comprendre mais je pense que c'est important de faire ce travail de pédagogie
de l'expliquer à quoi ça sert et pourquoi c'est important oui puis de toute façon pour se
pour se projeter c'est était obligé de moniter que le monitoring c'est de façon très générale
c'est pas juste savoir si ça si c'est ok ou cas ou c'est aussi pouvoir anticiper les futurs
besoins si si on n'a pas de de maitris qui nous permet d'avoir de la visibilité sur l'évolution
de la de la charge d'un service ou quoi on sait on peut pas savoir combien ça va nous coûter
dans 6 mois donc le monitoring il faut il faut le voir plus que comme juste un outil tech mais c'est
vraiment un outil important du du produit pour savoir où on va et c'est pour ça que c'est un
dépris du mouvement dévoil d'ailleurs on va revenir là dessus alors on est convaincu qu'il faut
passer à la supervision qu'il faut installer une supervision c'est la phase name dropping un petit
peu c'est quoi les solutions qu'on utilise au final il ya des solutions qui sont un peu plus
historiques des solutions qui sont un peu plus récentes ben je vais te laisser commencer arwan
quelle solution toi tu as utilisé déjà et quelle solution tu préfères maintenant et dans
quel contexte alors moi j'ai pas mal pas mal utilisé nageaus pendant une bonne partie
enfin quand j'ai commencé à travailler d'ailleurs mon premier sujet de stage était sur la mise en
place d'une supervision avec nageaus que c'est un outil que que j'aime plutôt bien et que je trouve
qui était pas trop mal foutu même si ça ça nageaus marche essentiellement même s'il y a d'autres
façons de faire mais essentiellement sur du polling donc c'est tous les x temps il va aller pinger une
machine il va les récupérer il va aller faire un curl sur sur une URL donnée etc etc et donc c'est
ce point central qui va récupérer l'information et donc du coup les passages à l'échelle et puis
le côté le côté un peu volatile avec des serveurs qui qui seraient présents que genre deux heures et
qui repartiraient ben tout ça c'est pas vraiment vraiment compatible avec la philosophie de nageaus
mais bon ça le mérite de quand même de plutôt bien fonctionner je crois que c'est quand même
encore actif et puis moi je l'aime bien aussi c'est historiquement j'étais un contributaire
donc c'est nageaus j'aime bien après j'ai aussi un peu utilisé munin alors je sais pas si on dit
munin ou munin mais mais que je trouve intéressant parce que c'est pareil c'est du polling et en
fait en faisant rien juste en faisant le apd get install et puis en en précisant le libé du serveur
à qui on renvoie les informations et on a des on a des graves on a on a plein de choses donc c'est
pas trop trop mal mais mais aujourd'hui bah comme je disais un peu plus tôt moi je je trouve qu'avec
une une stack une stack et le cas on peut faire quand même pas mal de choses mais mais après les
les outils que je trouve vraiment les plus les plus intéressants c'est effectivement prometteous parce
que c'est et c'est largement répondu qu'il y a beaucoup de services ça va exposer les métriques et
tout un tas de choses pour pour prometteous et donc du coup le ça le rend un petit peu un petit peu
incontournable et donc voilà c'est en gros c'est ça les outils qui me viennent en tête après il y a
aussi les abysses et autres mais qui sont un peu comme comme nageaus du coup c'est vrai que j'ai
faisais un peu certains outils aussi moi nageaus comme tout le monde je pense que je découvre un
c'est vrai que l'organisation des fichiers et le fonctionnement bah ça ça a pas mal vieillis et
du coup c'est vrai que je suis assez rapidement passé à centréon centréon sur le cas je
restais assez longtemps en nage pas en termes de supervision et pas d'observabilité je suis plus
resté après sur du centréon j'ai pas testé trop d'autres choses après j'ai pas mal fait comme
je disais d'inatras du moins j'en ai fait plusieurs fois et j'ai un peu expliqué les avantages et
donc c'est un produit qui est intéressant mais comme je disais assez lourd surtout si vous l'installez
en premise moi j'ai jamais déjà vu ça mais en premise c'est assez lourd et c'est assez coûteux
et ensuite il y a de la solution donc du coup bah qu'er oann évoqué qui est du coup promettéuse
avec généralement couple un graffana avec pour avoir des vues parce que promettéuse a plus
occupé juste des métriques et du coup aussi de l'alertine en partie donc du coup c'est assez
c'est un combo qui est assez intéressant parce qu'il est très flexible il est open source il est
assez simple et je pense qu'il est très très puissant il est très puissant pour faire beaucoup
de choses avec c'est un produit sur lequel j'aimerais bien retravailler dans mes prochaines
missions faut que je trouve des use case dessus parce que c'est vraiment un produit qui m'a intéressé
ensuite on est déjà parlé de ce qui ensuite et ce qui s'ensuit qu'il a va être plus pour du
log management mais c'est vrai que c'est un classique lk donc elle est stick search log slash
et qui bana c'est un classique qui fonctionne très bien qui là aussi est flexible donc pourquoi
sans privé entre guillemets je conseille aussi quoi et toi du coup christophe toi tu conseillerais
quoi qu'est ce que tu as déjà utilisé moi j'ai commencé comme tout le monde avec nageaus je
regarde pas forcément un très bon souvenir surtout que je crois que ça pas pas beaucoup évoluer
on en a encore chez l'hydrate et notre supervision encore sur nageaus on va on va la changer moi je
j'aime beaucoup data doc parce que ça va très vite après depuis que j'ai découvert net data
maintenant c'est vrai que net data ça permet d'avoir et les graphiques et la supervision sur
un seul serveur en live c'est très léger ça prend très peu de ressources mémoire très peu de
ressources cpu ça prend pas de ressources disque parce que c'est du live du coup si on veut stocker
en fait la donnée il faut il faut avoir un backend type promettus et autres mais je trouve que net
data c'est un bon compromis finalement pour avoir une solution qui est à nous et qui est facile à
installer après pour une solution centralisée je pense qu'on va très certainement aller sur du
promettus graffana comme tout le monde surtout que promettus ça permet aussi d'avoir les stats de
Kubernetes et on a tendance à travailler beaucoup avec openchips Kubernetes de plus en plus et
coupler ça avec un olk pour la centralisation de log encore que je suis pas je suis pas fermé à
grailogue je sais pas si vous avez entendu parler de grailogue c'est une alternative à olk et là
il faut vraiment qu'on étudie laquelle des deux solutions consomment le moins parce que olk c'est
ici il y a quand même je crois qu'il y a elastic search c'est quand même un truc assez consommateur
mine de rien. Attends qu'on a parlé de nos solutions préférées on en a déjà parlé au début
la première chose qu'on monitore en fait enfin plutôt les premières choses qu'on monitaurait à
l'époque c'était le système donc le cpu, la ram, les disques, les aio, le réseau etc mais ça
suffit pas et puis ça ne nous permet pas d'avoir des des alertes qui soient pertinentes parce que
souvent quand on a des alertes cpu au ram, je pense que vous avez fait de la strainte comme moi mais
quand on est réveillé à 4h du matin parce que le cpu ça fait 5 minutes qu'il a 100% mais au
final quand on arrive qu'on se réveille qu'on se connaît que l'alerte bah elle est passée ça fait
pas plaisir donc là comment est-ce qu'on pense à supervision pour améliorer justement notre
observation du système est-ce que vous avez des pistes d'amir à toi qu'est ce que tu fais en fait
quel genre de pistes tu mets en place et quel genre de choses tu aimes regarder je pense donner
un grand classique mais on l'attend bah l'amélioration continue tout simplement il ya des moments on
peut pas inventer comme tu le dis j'ai fait de la strainte aussi c'est relou d'être réveillé pour
rien le problème c'est pas d'être réveillé pour rien le problème c'est d'identifier pourquoi
c'est arrivé est-ce que c'est utile et de corriger ça et ensuite de se dire que je
ne serai plus réveillé pour ce problème là et d'améliorer comme ça constamment après bah
c'est c'est comme tout il aura forcément des faux positifs on peut le réduire maximum mais je
pense que c'est inérent il faut arriver ensuite je pense aussi à se détacher des métriques uniques
c'est à dire pas faire juste une alerte parce que j'ai un pic de cpu par contre est-ce que je veux
faire une alerte parce que j'ai un pic de cpu j'ai pas mal d'aillot et mon application commence à
mettre du temps à répondre là oui ça commence à être intéressant ou de faire des compositions comme
ça de plusieurs métriques pour en déterminer une alerte je pense que c'est quelque chose qui
réduit grandement nombre de faux positifs parce qu'on a tous su ouais effectivement à deux heures du
mat quand il ya toutes les crônes de backup qui se déclenche et du coup il ya des activités aillot et
cpu on est réveillé on est bon bah c'est normal c'est un crône qui s'est dansé donc oui je pense
que là il faut faut réagir et faut se dire bah je vais pas me contenter de juste déclencher les
alertes parce qu'il y a un indicateur mais plusieurs indicateurs m'indiquent que ma situation est
en train de se dégrader je pense que c'est c'est la meilleure manière de faire du moins de mon point de
vue et de mon expérience après il ya d'autres points de vue à d'autres manières de faire je
sais pas si y a roi toi t'as d'autres pistes pour justement répondre à cette problématique
les effectivement les faux positifs c'est un peu le vrai le vrai mal de ce milieu quoi c'est
à force de vouloir on veut avoir le maximum d'information et mais par contre il faut qu'il
est elle est elle est du sens et et les faux positifs en fait c'est vraiment ce qui détruit le sens
de du monitoring parce que on est déjà tous allé dans des lieux où il ya un espèce de grand
dashboard où on voit qu'il ya trois trucs en rouge et quand on dit ah mais il y a des trucs en rouge
il y a peut-être un problème et on dit non mais c'est normal en fait non si c'est normal c'est que
un sujet et puis l'autre sujet c'est c'est aussi qui on prévient quand quand il ya un problème
si c'est pas tout de générer des alertes une fois qu'on les a bien généré il faut que l'alerte
pa ping la personne il doit ne pour le pour le sujet et il faut pas pinger la terre entière parce
si ça devient le problème de tout le monde c'est le ça devient aussi le problème de personne
il ya il ya tout un travail à faire autour de ça je sais qu'à qui a des outils et des services
genre pager d'outils ou quoi pour pour aider sur ce genre de questions mais mais pour moi les deux
les deux sujets sur lesquels il faut il faut faire un peu attention c'est ça c'est les faux positifs
qui ont alertes et surtout aussi à quitter les alertes pour savoir qu'il ya quelqu'un qui est
ou que que c'est encore d'analyse donc vous avez tout dit en fait je peux rien à dire
ouais alors en effet agréger des alertes pour savoir pour savoir ce qui se passe moi je pense
que je vais être plus en plus là dessus parce qu'en effet levé une alerte sur le cpu surtout
que bon l'objectif c'est quand même de surutiliser les machines et d'avoir un nombre d'applications
qui est hyper important donc que le cpu soit à 90% tout le temps pour moi c'est pas gênant
par contre en effet si l'application elle commence à mettre du temps à répondre là ouais c'est une
vraie alerte et surtout si on coupe le ça avec le nombre de requêtes enfin bref levé des alertes
avec plusieurs plusieurs indices de supervision c'est vraiment une bonne pratique et la deuxième
chose en effet c'est que tu la dis à ouana si c'est rouge mais que c'est normal c'est qu'en effet
ça a pas être rouge et que là il faut vraiment repenser ces alertes et l'améliorer en continue
parce que si une alerte elle revient tout le temps et qu'en fait on s'aperçoit que c'est pas une alerte
bah il faut pas la faut pas la lever c'est tout ou alors faut améliorer la manière dont t'es levée
l'alerte et le traumatisme des faux positifs bah je pense qu'on en aura tous et on en aura tous
encore longtemps bah une fois qu'on a pensé pensé ça alors on est resté encore je trouve très système
un petit peu application mais il ya un truc dont je voudrais qu'on parle c'est les apm on en a
brièvement on a brièvement utilisé le terme c'est l'application performance management ou le
management des performances de l'application c'est souvent des add-ons qui se rajoutent sur notre
supervision qui nous permettent d'avoir des informations comme en combien de temps l'application
en répond par quel chemin de code elle est passée et où est-ce qu'elle prend du temps est-ce que
vous avez déjà utilisé ou vu vos développeurs utiliser des apm et si oui est-ce que vous avez
des bons apm si possible libre à conseiller à nos auditeurs alors moi côté apm j'ai pas trop
trop touché directement après je pense que ça aussi c'est comme je dis c'est important je pense le
monitoring l'observabilité de travailler avec les devs dessus parce qu'ils ont quand même une partie
qui leur incombe qui est le développement donc c'est intéressant de bosser avec eux et pour les apm c'est
encore plus intéressant et j'ai essayé de mon côté comme zedina trace c'est le seul auquel j'ai
réellement un peu touché et c'est assez intéressant justement à être pouvoir faire des analyses plus
approfondées du code et du coup on peut vraiment faire une analyse beaucoup plus complète ce qui est
intéressant c'est de pouvoir corrérer ça avec les autres les métriques plus classiques entre guillemets
pour se dire à mon arralentissement mais c'est dû à cette fonction et après de déduire un
cheminement logique c'est toujours quelque chose d'assez intéressant notamment pour le debug
moi je pense et c'est quelque chose qui est souvent plus que le supervision l'apm j'en vois encore
plus rarement et c'est un peu dommage je pense notamment comme je dis pour le debug niveau
dev et pour l'optimisation du code je sais pas ce que t'en penses et roi de ça et je sais pas si t'as
d'autres expériences dessus alors pareil moi j'ai jamais trop utilisé les apm je me souviens que quand
j'étais quand j'étais chez 10 heures il y a on utilisait on utilisait un petit peu new relique
justement pour mes par contre pour pour pour des raisons de coups on le déployait pas partout
c'était déployé sur genre deux ou trois machines par non témoins et en fait l'idée c'était de
d'arriver à sortir des trends sur sur comment se comporte l'application justement pour pouvoir
après agir dessus mais je sais que enfin je veux pas dire de bêtises mais il me semble qu'il y a
des modules pour pour et des et des outils apm pour pour la stack lk qui sont édité par élastique
mais j'ai pas trop regardé à le fin à quoi ça correspondait mais mais aujourd'hui je dois avouer
qu'on voit plus ça comme comme comme comme quelque chose qui est un aistouave et que
actuellement on met plus d'énergie plus sur la partie monitoring et et le suivi par par les logs
en effet oui on moi je le vois assez rarement l'apm alors que pourtant c'est essentiel parce que sans ça
en fait on peut passer des des heures voire des jours à analyser un problème de performance alors
qu'avec un bon apm et bah ça peut être réglé en effet en quelques heures puisque tout de suite
on va voir ce qui se passe nous on a utilisé chez mes clients aussi neurologiques et en effet ça
coûte très très cher il ya une ou relique il ya datadoc qui propose ça datadoc en plus ils font
de si je me trompe pas ils font du de du learning sur les apm qui déploie donc ça veut dire que
leur solution elle auto apprend mais c'est excessivement cher en effet il ya elastic church qui a
sorti elastic apm je sais pas si c'est libre j'ai pas je pas regardé la licence et je sais que j'avais
cherché des solutions libres et je n'avais pas forcément trouvé grand chose et si je ne m'abuse
il ya prometté aussi qui propose un apm je vais vérifier ça tout de suite avant de dire une bêtise
sinon si on vient du php aussi un profiler qui peut faire un peu office d'apm il me semble c'est
black fire du coup qui est une ancienne boîte qui était à l'époque attachée à symphonie qui du
coup elle fait fait cette partie là aussi et comme j'ai à dinatrace donc on n'a pas coté pas recité et
ensuite ben prometté je te laisse check si il ya effectivement un adon pour le faire généralement
il ya très peu de solutions répandues qui soient libres et ou gratuit gratuit auto et
hébergeable entre guillemets donc c'est à voir après en fonction des besoins aussi et du coup
tout simplement du budget non j'ai pas l'impression que prometté se propose d'apm je pensais avoir
lu ça mais je suis je pense que je me suis trompé en effet ouais c'est parce que avoir un service c'est
une chose mais en effet l'auto héberger c'est bien parce que finalement là c'est des données qui
peuvent être métiers qui peuvent passer enfin surtout dans les logs plus que dans l'apm mais c'est
quand même pas mal de garder ces données là en interne en tout cas je pense que ça ça va être
amené à se développer les apm de plus en plus parce qu'on voit l'explosion des des solutions de
supervision libre à mon avis les solutions de supervision applicatives vont être le prochain
pas maintenant qu'on a notre supervision qu'on a mis à notre apm sur notre dernière
application comment est-ce qu'on va plus loin qu'est ce qu'on peut faire qu'est ce qu'on peut
faire de plus on l'a rapidement abordé l'une des l'une des choses qu'on peut faire c'est
centraliser ces logs et c'est en gros quand on a beaucoup de machines plutôt que d'aller se connecter
sur chaque machine pour aller observer les logs dans plein de fichiers différents d'ailleurs souvent
ce que j'ai fait longtemps chez certains de mes clients on peut prendre toutes les logs qui sont
pertinentes et les agrégés dans un agrégateur de log et en en incité 2 elk et grelog moi c'est
quelque chose que j'utilise assez peu pour l'instant et du coup j'aimerais bien avoir votre retour
sur la facilité que ça peut amener aux exploitants justement de centraliser les logs c'est moi je
vois ça comme le truc le plus vital quoi le le avant il ya il ya des années on se logger sur les
machines pour pour regarder justement les logs etc puis avec six log enfin les solutions genre
r6 log on a centralisé ces logs là sur une autre machine et donc du coup on avait plus qu'une
machine sur laquelle se logger pour avoir accès à ces logs et c'était déjà beaucoup mieux mais en
vrai le fait d'utiliser des solutions donc avec comme la stack lk et j'imagine du coup que
galox est sensiblement la même chose je connais pas assez bien mais bah l'avantage c'est que
on peut on peut agrégé les logs on peut les on peut faire des recettes dessus on peut on peut les
on les parses en fait quand on les ingère dans la base de données donc du coup du coup on peut faire
vraiment des choses hyper hyper malines et recroiser des informations de services qui sont
totalement différents par exemple ton service ton service web avec ton supervisor qui qui a
lancé ton API piton par exemple tu peux recroiser tous tous ces logs là et comprendre que ah bah
tiens à un moment mon hg nix a renvoyé des erreurs 500 bah en fait c'est parce que mon
supervisor a redémarré la pays et ça tu peux le voir dans un dans des vues agrégées très très
facilement alors c'est pas magique ça demande du temps quand surtout quand c'est la première fois
à mettre en place si si t'as pas la chance d'avoir des logs dans des formats type gizon ça veut
dire qu'il va falloir créer des des régabes pour les parser donc du coup ça aussi ça prend du temps
faut les tester etc mais aujourd'hui personnellement la chez là où je suis actuellement je suis hyper
content de pouvoir voir l'intégralité de ce qui se passe sur l'infra juste via des dashboard où
j'ai juste à filtrer sur erreur et puis je vois toutes les erreurs quel que soit le service de l'infra
c'est vrai que pour moi aussi aujourd'hui c'est c'est des mythes indispensables en fait d'agrégés
log pour plusieurs raisons j'ai une amie qu'on n'a pas cité mais c'est tout simplement qu'on
n'est plus sur des infrastructures en général où une machine on la lance on s'en occupe en
habillonne aujourd'hui on est vraiment dans l'idée de lancer chose et d'être vraiment on va dire à la
volée donc demain je lance une vm pour absorber ma charge elle va être trash 10 minutes après
mais moi j'aurais peut-être besoin des logs donc c'est très important des agrégés quelque part
pour pouvoir les traiter après comme une zéro en plus ça vous a des capacités de traitement qui
sont vraiment agréables entre guillemets parce que demain vous avez trois vm vous devez chercher
pour moi combien une requête en particulier sur une url sur une heure donnée parce qu'on a
un souci avec le site ben si vous devez faire des grep avec des pipes sur les trois serveurs et
après faire des calculs pour les trouver alors qu'en une commande vous l'avez sur votre système
d'agrégation de log ben il ya quand même une solution qui est plus simple et du coup surtout si
vos machines sont un autoscaling groupe c'est même pas la peine vu que vos machines auront été
détruites entre temps donc c'est vraiment important et il y a aussi un point sur lequel j'aimerais
juste au moins l'évoquer parce qu'on n'a pas abordé du tout là dessus c'est que c'est aussi important
pour la sécurité en fait si vous avez une machine qui est compromise avec vous avez pas des logs qui
sont exportés ben les logs en fait ben attaquant il va pouvoir y toucher comme il veut et quand vous
avez accédé vous avez aucune certitude que les logs ont été touchés ou pas donc avec du coup de
l'agrégation de log sur un serveur à part vous allez pouvoir faire des analyses au niveau de la
sécurité vous avez surtout pouvoir les conserver pour faire après de l'analyse post incident post
penetration du coup de la part d'un attaquant donc c'est vraiment quelque chose qui est intéressant de
ce point de vue là et qui est du coup je pense aujourd'hui aussi vital que la que la supervision
donc bon ça c'est un peu du point que je souhaitais relever dessus moi généralement je suis plus
sur du du cloud watch donc service d'aWS pour gérer ça parce que comme je disais on est déjà
sur AWS donc autant pas rajouter trop de deux couches mais c'est quelque chose comme on a dit
à R6 Log et Elk et à Greylog il y a plein de choses qui permettent le faire ça prend du temps
mais je pense que c'est c'est plus que nécessaire je pense que c'est la chose à rajouter Christophe
dessus ouais je vais juste rajouter je vais compléter en fait ce que tu dis en effet c'est
super important parce que quand on est dans le cloud les machinettes en tendance à cracher ou
à être arrêté et c'est la même chose en fait quand on est dans des conteneurs ou quand on est
dans des microservices et qu'on a un orchestrateur comme Kubernetes ou d'autres et là c'est sûr les
conteneurs ils s'arrêtent régulièrement et si on centralise pas nos logs quelque part on n'a pas
les logs des conteneurs et la dernière chose dont je voudrais vous parler c'est c'est la mise en
conformité continue c'est parce que là on est entre l'infrastructure AsCode et la supervision
parce que finalement en fait là on n'a parlé que de regarder ce qui se passe sur nos serveurs mais
en fait s'il ya quelque chose qui change un état qui change sur un de nos serveurs les solutions
de monitoring elles pourront certes le relever mais elles pourront pas le corriger du coup va
falloir qu'on se connecte ou qu'on lance nos pléboucs en cible pour le faire et il ya une solution
open source qui s'appelle rodeur je sais pas si vous connaissiez mais qui permet de faire ça qui
permet en fait d'avoir de gérer toutes ces machines sur son infrastructure de gérer tout ce
qu'il y a à fra à AsCode et l'installation et la mise à jour mais aussi la mise en conformité c'est
à dire qu'en fait rodeur régulièrement va passer sur ces machines et voir si tout est conforme par
rapport au dépôt qu'il a et si c'est pas conforme il va réappliquer les règles qu'il a donc si
quelque chose change sur un serveur par exemple qu'est ce qu'un quelqu'un se connecte manuellement
sur un serveur et c'est ça chez change une configuration parce que parce que pourquoi pas et
bah rodeur va passer derrière et va justement réappliquer l'ancienne configuration est ce que
vous aviez déjà entendu parler de ce genre de choses avant ou pas de rodeur non mais finalement
c'est comme un peu pète non je connais pas c'est bien peu pète je sais pas si peu pète permet aussi
de générer des états et des rapports parce que rodeur permet aussi de générer des rapports
pour justement pouvoir les apporter en cas de vérification puisque il ya certaines boîtes
qui l'utilisent qui sont par exemple certifiées et bah les rapports de rodeur peuvent permettre
d'avoir la certification ou de garder cette certification là je sais pas si peu pète fait
ça de mémoire peut être fait pas ça en tout cas pas de manière aussi aussi complète et out of box
entre guillemets il va falloir je pense développer des add-ons des choses comme ça moi je parle
vraiment de mémoire un peu pète ça fait quand même quelques années que j'ai pas touché et autrement
moi je connaissais le produit de nom grâce au devops rex mais j'ai pas eu trop le temps de regarder
plus près ou d'y toucher mais c'est vrai que c'est quelque chose qui peut être qui peut être intéressant
effectivement d'avoir des rapports des choses comme ça surtout dans le contexte de sécurité
après je sais qu'il y a d'autres produits qui le font là j'avais pu le nom en tête mais
chez mon client on utilise un autre produit mais j'ai pu le nom du tout en tête là petit trou de
mémoire mais si tu retrouves le nom on mettra dans les commentaires dans les liens en commentaire
du podcast et puis je pense qu'on va s'arrêter là on est déjà une heure 16 je vois c'est un long
podcast encore merci à tous les deux pour cette discussion c'est toujours très agréable de
discuter avec vous et j'espère que nos auditeurs en ont appris un peu plus sur la supervision un
petit mot pour la fin pamplemousse super viser vos infrastructures et vos applications c'est
important oui pensez à les observer allez regarder allez bichonner ne bichonnez pas trop vos
serveurs par contre mais bichonnez votre infrastructure de manière globale et en tout cas
vous dis à bientôt et bon déconfinement merci d'avoir écouté radio dévops n'oublie pas de
nos télébisodes plus la note sera élevée et plus sera mis en avant dans les applications tu peux
aussi le partager ça nous aidera à le diffuser et à rendre le mouvement plus visible si tu as
envie de discuter du mouvement alors rejoins nous dans la communauté des compagnons du dévops à bientôt
la baladeau diffusion des compagnons du dévops est produite par l'hydra

Episode suivant:

🎙 En Solo #9 - Comment collaborer en équipe avec un flux de développement git ?

Les infos glanées

Je suis une fonctionnalité encore en dévelopement

Signaler une erreur

RadioDevOps

Vous avez l’envie d’en connaitre plus sur le mouvement DevOps ?

Les problématiques liées au déploiement vous titillent…

Alors, vous êtes au bon endroit !

Radio DevOps est la Baladodiffusion des Compagnons du DevOps.

Le podcast en français dédié à notre mouvement.

Nos émissions :

🗞 Actus Devops : est une émission animée par des membres de la communauté des Compagnons du DevOps. Dans chaque épisode nous étudierons l’actualité Cloud et DevOps.
📻 Radio DevOps : est l'émission phare animée par des membres de la communauté des Compagnons du DevOps. Dans chaque épisode nous débattrons sur un sujet de fond.
🛋️️ En aparté : est une émission où je m’entretiendrai avec un invité sur le mouvement DevOps en entreprise.
🎙️ En Solo : est une émission où je serai seul pour vous parler de DevOps ou de Cloud.

📩 Si tu n’es pas déjà abonné, alors abonne-toi pour ne pas rater ces émissions.

💖 Tu peu soutenir mon travail et la communauté sur :

https://soutenir.compagnons-devops.fr/

🎓 Développe tes compétences DevOps avec un mentor : http://devops-mentor.tech/

🎁 Télécharge mon antisèche git : http://froggit.fr

💬 Si tu as envie de discuter du mouvement, le plus simple est que tu nous rejoignes dans la communauté des compagnons du DevOps : https://www.compagnons-devops.fr

❓ Pose moi une question : http://question.compagnons-devops.fr

☁️ Suis-moi sur les autres réseaux sociaux : https://mtr.bio/compagnons-devops

🌐 Les Compagnons du DevOps est une initiative de Lydra. NOTRE SITE: https://www.lydra.fr

Chez Lydra, nous nous sentons seuls entre deux Meetups ou deux conférences. Nous n’avons pas trouvé de lieu où échanger et avoir des débats en français sur le sujet qui nous passionne.

Nous avons donc décidé de créer et d’animer une communauté qui partage nos valeurs :

La passion de l’infrastructure as code.
La conviction que les logiciels libres et open sources sont émancipateurs.
L’envie de partager des méthodes, bonnes pratiques ou retours d’expériences.
L’amélioration continue fait de nous des experts en devenir.

Rejoins les Compagnons du DevOps !

#DevOps #InfraAsCode #Ansible #OpenStack #OpenShift #K8S #Docker #Packer #Terraform #GitLab

Hébergé par Acast. Visitez acast.com/privacy pour plus d'informations.

Card title

Lien du podcast

[{'term': 'DevOps', 'label': None, 'scheme': 'http://www.itunes.com/'}, {'term': 'Cloud', 'label': None, 'scheme': 'http://www.itunes.com/'}, {'term': 'InfraAsCode', 'label': None, 'scheme': 'http://www.itunes.com/'}, {'term': 'Ansible', 'label': None, 'scheme': 'http://www.itunes.com/'}, {'term': 'OpenStack', 'label': None, 'scheme': 'http://www.itunes.com/'}, {'term': 'OpenShift', 'label': None, 'scheme': 'http://www.itunes.com/'}, {'term': 'K8S', 'label': None, 'scheme': 'http://www.itunes.com/'}, {'term': 'Docker', 'label': None, 'scheme': 'http://www.itunes.com/'}, {'term': 'Packer', 'label': None, 'scheme': 'http://www.itunes.com/'}, {'term': 'Terraform', 'label': None, 'scheme': 'http://www.itunes.com/'}, {'term': 'GitLab', 'label': None, 'scheme': 'http://www.itunes.com/'}, {'term': 'learn', 'label': None, 'scheme': 'http://www.itunes.com/'}, {'term': 'compagnonage', 'label': None, 'scheme': 'http://www.itunes.com/'}, {'term': 'Technology', 'label': None, 'scheme': 'http://www.itunes.com/'}, {'term': 'News', 'label': None, 'scheme': 'http://www.itunes.com/'}, {'term': 'Tech News', 'label': None, 'scheme': 'http://www.itunes.com/'}, {'term': 'Education', 'label': None, 'scheme': 'http://www.itunes.com/'}]

Go somewhere