
Creating Systems that are Safe with Liz Fong-Jones
Durée: 28m40s
Date de sortie: 25/09/2024
Liz Fong-Jones (former Google SRE and current Field CTO at honeycomb.io) joins hosts Steve McGhee and Jordan Greenberg for a lively discussion centered around observability, its evolution from monitoring, and its role in modern software development. Tune in for more on the importance of observability as a spectrum, the evolving role of SREs, and advice to aspiring software engineers.
Welcome to Season 3 of the broadcast, Google's podcast about site reliability engineering and production software.
I'm your host, Steve McGee.
This season we're going to focus on designing and building software in SRE.
Our guests come from a variety of roles both inside and outside of Google.
Happy listening and remember, hope is not a strategy.
Welcome to the broadcast, the Google SRE production podcast.
Je m'appelle Jordan Greenberg, je suis un PDGM et la sécurité de la sécurité de la GCP.
Et avec moi, nous avons co-hosté...
Steve McGee, je suis un avocat de la reliability de Google Cloud.
Et notre guest aujourd'hui...
Bonjour, je suis Liz Fong Jones, je suis un ancien SRE Google et je suis maintenant le field CTO de Honeycomb.
Comment ça? Je me suis aimé un peu de popcorn pour commencer le jour.
Et par ça je veux dire, c'est tard à la nuit.
Donc le popcorn est extrêmement approprié.
Mais ce serait de popcorn sans un peu d'entretien, c'est pourquoi nous avons vous ici aujourd'hui, Liz,
pour nous dire tout ce qu'on a sur le SRE,
ce que nous pouvons dire, c'est que des choses plus entretiennes.
Liz, vous travaillez à une compagnie, je crois, qui s'appelle Honeycomb, c'est ça?
Oui, c'est correct.
Et aujourd'hui, nous espérons parler de l'observabilité.
Vous direiez que c'est quelque chose que vous êtes intéressés en,
et que vous êtes des professeurs?
Nous sommes vraiment plus intéressés en observabilité,
et nous sommes vraiment les uns qui ont popularisé le SRE,
à ce point que les gens ont décidé de renommer le SRE à l'observabilité,
qui est assez similaire, en beaucoup de temps,
les défis de la personne qui dit,
« Oh, on va juste renommer notre SRE à DevOps ou SRE. »
C'est un landscape de plaisir.
Mais oui, nous avons popularisé le SRE,
au moins quand il s'agit de la développement de software.
Cool.
Vous pouvez nous donner quelques définitions,
et vous pensez qu'ils sont stabilisent
à l'âge de la monitoring et de l'observabilité?
Parce que je sais que, comme une personne âgée,
j'ai été en train de monitorer depuis longtemps,
mais les jeunes de la nouvelle, les gens de la nouvelle,
ils ne se monitorent pas, ils font de l'observabilité,
et ils me disent que je suis d'accord et que je suis d'accord.
Ça ne semble pas correct. Je me sens quand même bien sûr.
Qu'est-ce qui se passe ici?
Je pense que tout le monde a une perspective
informée par les problèmes que ils ont été solvés.
Quand vous pensez à la raison que la monitoring est allée,
ils sont allés en train de comprendre
quand nos systèmes ont été détruits.
Ils sont allés en train de comprendre
quand nous voulions
avoir des charts et des métroces
pour comprendre ce qui se passe.
Mais, quand nos systèmes ont été plus complexes,
ce n'est plus possible
de faire un débat local,
ou de scroller les loges.
Et maintenant, nous commençons
à avoir des systèmes distribués
où vous avez besoin d'un détail de la respectivité.
Et c'est là où nous avons
créé la parole observable
de la théorie de contrôle.
Pour vous parler de ces systèmes
qui sont de la black boxes,
comment vous faites-vous s'assurer que ces boxes
soient agressées de la téléph�se
pour vous pour vous permettre de raison de ce qui se passe.
En fait, c'est été drôle.
Au cours de l'année précédente,
mes maires de boss de chartes et moi
ont fait un grand débat.
Si vous voulez
faire la monitoring observable,
c'est cool.
C'est un
dégât de la observabilité.
Ce n'est pas nécessairement
le plus haut de la observabilité.
Nous avons commencé à penser
de la observabilité comme un spectrum.
Vous pouvez avoir pas de la observabilité,
comme vous ne pouvez pas voir
tout ce qui se passe. Vous pouvez avoir
de la limitée observabilité,
ou vous pouvez avoir de la compétition
de la observabilité.
C'est là où nous commençons à parler
de la observabilité 1.0 vs 2.0.
Dans le monde précédent,
nous avions
des loges et des méteries
et cela était suffisant pour nos systèmes.
Nous commençons
à utiliser des analyses
de données en demandant,
d'une datae de tracing, de la datae de loge structure,
pour dédouer
des insights en temps réel
et de voir des problèmes de la même manière
que les choses que nous pensions
de la observabilité.
C'est ça le point.
Vous avez dit quelque chose
que
je, comme personne
qui est
sur le côté tertiary de la SRE
tendentiellement, je le vois.
Vous parlez de la
observabilité de la boxe.
Comment nous pouvons vraiment savoir
comment le système fonctionne
dans cette façon ? Qu'est-ce que
l'exprime de la machine
pour s'entraîner
si quelque chose est en train de se performer,
si c'est supposé, si non, c'est réel ?
Oui, donc je pense
que certainement, il y a
une certaine analogie pour les X-rays
ou pour les monitor à la boxe
de la boxe. Mais je pense
que les gens comme Jean Allspa
qui ont été en train
de penser en termes de perspective de système
ont vraiment le droit
en termes de, c'est pas important
de la manière dont
cette image, cette combination
des patchs blancs et d'or,
ne signifie pas
que tout ce soit un personne interprété.
Donc la façon dont nous devons
penser à cela est
que vous avez
un modèle mental de comment vous pensez
que le système fonctionne ?
Comment vous testez cela contre la réalité ?
Comment vous reconnaissez
ce qui se passe
dans la machine ? C'est
où la méthode scientifique est en train de jouer,
où vous vous demandez la question, c'est falsifiable.
Si vous pouvez
refaire votre compétition
sur ce qui se passe, si ça fonctionne,
si ça ne fonctionne pas, si c'est
misébérant,
pour comprendre pourquoi
ce qui se passe,
vous ne pouvez pas
directement regarder
l'image des pixels et vous dire
que c'est le problème.
Il faut parfois décider
d'y décider où se protéger
et de l'interpréter
pour refaire votre modèle et d'y édouer
jusqu'à ce que vous comprenez.
Je ne pense pas que c'est un fait
de la 1 et de la 2.
Je ne pense pas que vous
allez au médecin et que vous êtes
terminé. C'est un processus
d'interpréter
parce que les systèmes sont complets.
Vous ne pouvez pas les dédiagnoser
avec ce que vous avez fait.
Ce n'est pas même possible que les médecins
travaillent.
Il y a beaucoup de choses que vous parlez de.
Ce n'est pas seulement le médecin.
Il y a beaucoup de choses que vous parlez de.
C'est sûr que si un bon
est bloqué, c'est possible.
Mais quand c'est plus complexe,
il faut faire beaucoup de tests
et des choses comme ça.
Oui, exactement. Ils doivent faire des tests
pour refaire et éclater
les haires rues.
Le autre chose que je trouve fascinant,
c'est un panneau complet,
mais je vois un vidéo
sur pourquoi vous pouvez
prendre les liquides
par sécurité.
Il y a
tout ce software complexe
qui analyse les résultats
des X-rays. Il y a
plusieurs beams et des fréquences
et ils sont en tournage
autour de votre panneau.
C'est pourquoi ils s'appliquent les scanners CT
et pas les scanners X-ray.
Ils générent une image 3D
et ils compute la densité différente.
C'est pourquoi ils disent que c'est un liquide,
c'est des water ou d'autre.
C'est quelque chose qui ressemble à l'organisme,
c'est quelque chose qui ressemble à la métallique.
Ce n'est pas juste
un « est-ce que c'est d'un dimanche ? »
Il y a un ton aux matins complexe
dans qui il faut
rendre les résultats
pour que l'homme
qui n'est pas nécessairement
un dôme, puisse s'interpréter
et comprendre.
C'est pour ça que mon mission est
d'un personne qui travaille sur l'absorbitité.
C'est pour ça que nous avons des signals
des systèmes et des systèmes pour danser ensemble
pour que nous puissions faire cela comme facilement
en écrire un statement de sequel pour quelqu'un
pour savoir ce qui se passe sur leurs systèmes.
Ou même mieux, si vous n'avez pas besoin de faire le statement de sequel,
qu'est-ce que nous avons élevé ce qui est intéressant pour vous?
C'est ce que je pense que c'est le genre de challenge
de nos uns et pourquoi je dis, vous savez,
de vous rappeler, comme la observabilité du spectrum,
si vous avez des modèles basiques,
comme ce que vous savez, c'est un niveau de observabilité,
c'est mieux que rien, mais il y a
beaucoup de choses plus belles que vous pouvez faire
pour que vous puissiez faire ce qui se passe sur les systèmes
si vous appréciez une technologie neuve.
Un autre point d'exploitation avec cette technologie,
c'est un grand moyen de penser à ça,
c'est que, à un point,
cette technologie de l'exploitation de liquide a changé,
elle a changé, elle a révé la version prochaine de la chose,
et la transition de la politique,
parce qu'on a un meilleur sens de,
en ce cas, le payload,
la bagage, et donc,
on peut changer le système de plus grand
parce qu'on a une technologie de plus en plus,
et l'autre côté de ça,
c'est que les gens qui sont en charge de la politique
ne pourraient pas être même aware que
cette technologie a changé.
Donc, d'avoir des systèmes de compagnies
qui soient upgradés,
et puis avoir un effect
qui est répliqué au reste du système
parce que, si c'est bien ou pas,
ou si c'est juste de changer le moyen
d'interprétation du système,
comme vous avez dit,
votre modèle mental de la chose ne pourra pas se matcher anymore,
parce que quelqu'un a changé la semaine dernière,
où on n'a pas utilisé ce système anymore,
que vous vous souveniez de l'utilisation.
Donc, je pense que c'est un bon moyen de le penser.
Oui, c'est pourquoi les majors de la Chari
et moi ont cette rèlée et le cri
de que vous devriez pouvoir déployer en Fridays.
Quand je suis en Chari,
vous vous demanderez à quelqu'un qui déploie en Fridays.
Parce que c'est comme, oh mon Dieu,
qu'est-ce que ça ne se débrouille pas,
qu'est-ce que ça a une réaction délée,
qu'est-ce que ça va faire en production?
Mais je pense que ça a été borné
de l'absorbilité,
de l'absorbilité de la production confident.
Et c'est en production.
Que, idéalement, si vos systèmes sont bien instrumentés,
vous pouvez
mettre quelque chose et regarder ça
pour deux heures après-midi,
en utilisant les meilleures sensors et technologies
et ça n'a pas été déployé après deux heures.
Vous pouvez aller chez vous parce que ça peut se déploier
trois jours de maintenant, ou trois mois de maintenant,
mais d'ailleurs, ça ne se déploie pas
si c'est en phase de la fredesse,
si ça a un délai effectif de 5 à 7 jours.
Donc, je pense que c'est vraiment
l'advantage de la construction
de la production confident
et de la production qui nous donne,
c'est que ça nous donne plus de confiance
pour le ship de software plus rapidement.
Nous, les SREs,
nous nous concentrons parfois
sur la part de la reliant.
Et la réalité est que nous sommes
une fonction de service.
Nous sommes ici pour servir les utilisateurs
et les développeurs
pour pouvoir obtenir des features
pour la production en manière reliant,
pour ne pas juste s'en faire et dire non.
Il y a une histoire apocryphale,
c'est vraiment vrai,
mais c'est déjà joué un peu
sur la sRE que Google n'a pas été
et il y a un outil d'advice
qui est à la Google Kernels
qui est, si vous vous inquiétez,
un outil de croc et vous dites non.
Je pense que nous avons
évoqué d'une sorte de base
de la mentalité de
les utilisateurs qui sont d'accord,
nous disons non à tout.
C'est une bonne question.
Cela signifie
que
si vous vous considérez
que vous n'avez pas à déployer
quelque chose,
avant une nouvelle vidéo,
vous voulez vraiment jouer
dans quelques heures.
Comment vous pensez
à déployer ça ?
Qu'est-ce que vous pensez
à la réplique
de la technologie, de la technologie,
de la software
pour les répliquer
comme beaucoup de
nous devons rester en ligne
pour essayer de fixer la situation ?
Nous savons que le postmortem
s'est passé.
Mais ce qui s'est passé
avant une réplique
d'une software infrastructure
de la technologie,
n'est-ce pas qu'il n'y ait pas
de réplique ?
J'adore le pre-mortem.
Je pense que c'est génial.
On pense comprehensivement
à ce que les choses possibles
puissent se faire
d'understands que vous ne pourrez pas
les faire, mais
d'identifier
ce que ces risques sont et de les médicamenter
ou de savoir
si vous êtes allé dans un territoire dangereux, c'est
la première pièce.
Quand nous pensons
aux répliques communes, nous pensons
beaucoup à la déployement canaire,
et des rollbacks.
Mais, c'est assez
que votre rollback peut aussi
faire plus de décharge, si c'est quelque chose
qui a été causé par la changement.
Mais, évidemment, ils vont être
des known and knowns,
mais en faisant que vous êtes au-dessus
de vos known and knowns, c'est la première chose.
Et la autre chose, c'est de
faire que vous avez une instrumentation
adéquate, une télémetrie adéquate,
pour savoir
quand vous pourrez faire cette déployation,
quand vous pourrez faire la chose que vous êtes en train
de faire, parce que si les choses continuent
dans cette direction, ce sera bien.
Je pense que c'est
comment vous pouvez prendre un peu de ce risque
de la déployement,
par avoir la visibilité
de voir
si je suis en train de steer le ship
dans la direction de l'autre,
bien sûr, la puissance peut se passer
sur le ship et vous pouvez le steer directement
dans la brige, mais vous ne voulez pas
de se déliberer votre ship en train de la brige,
ou de ne pas avoir une idée,
si votre radar n'est pas une fonction, vous ne devriez pas
se déliberer le ship.
Je pense que c'est probablement le meilleur moyen
de penser à cela, comment nous maximiser
notre capacité de contrôlabilité
et de l'observité de la réveilité, pour aller
sur le fait de contrôler le stuffe,
comment nous pouvons faire surement
de la faire en sorte que nous puissions
prendre des petits procès pour aller
dans la bonne direction en tout temps.
Ok, bien sûr.
Donc, une chose qui est bien bien parmi vous
et qui est bien bien compréhendue
est l'idée de...
Une des meilleures choses que vous voulez
dans l'observité est moins de la grise
du système et de plus de nos utilisateurs
qui sont heureux. Nous parlons de la salaud
beaucoup, je pense qu'il y a d'autres moyens
pour détenir cela. Comment vous vouliez
commencer par cela ?
Comment nous définir
ce que nous devons faire pour faire des utilisateurs
heureux et comment nous savons que cela
est en train de se faire ?
Je pense que c'est un endroit très valide
et une des raisons de pourquoi je veux
aller au Honeycomb après Google, c'est que
j'ai vu beaucoup de gens
qui se sont en train de se faire
des salauds de maintenant.
Maintenant, nous avons une métrique
additionnelle qui est très vague et qui
dit que quelque chose est d'accord.
Si vous ne vous donnez pas des tools pour
investir quelque chose d'accord, ou que les utilisateurs ne sont pas heureux,
alors vous n'êtes pas
en train de mettre en valeur pour les vies
parce que tout ce que vous donnez est un dashboard
qui se termine en red ou un court de l'apport
qu'il faut produire, c'est que nous avons mis
des salauds et c'est bien, c'est bien.
Je pense que la plus powerful
que nous pouvons faire est
de faire surement que nos salauds sont
en train de se faire en data qui est bien observé.
Si vous avez
un signal de transaction d'utilisation
qui est accélérée à 3000 ms,
cette transaction de l'utilisation
a mieux été partie d'un trait de distribution
ou d'un blog de structure
que vous pouvez suivre tout le temps.
Vous pouvez bisec le problème et figure
où est-ce qui vient de, c'est-à-dire
où la population des utilisateurs est impactée.
C'est comme ça qu'il devient
un tool interactif,
où vous pouvez se déterrir, où vous pouvez dire
que le salaud est en train de se faire
et que c'est venu de cette partie,
je vais le fermer, plutôt que
nous voulons faire le salaud et qu'on n'a pas de raison.
Ou nous avons des salauds alertés et on ne peut pas
savoir ce qui se passe.
Je pense que
les salauds sont vraiment
l'ultime, des symptômes
d'utilisation d'utilisation
et que ce soit enından de
ne pas te réagir, mais de pouvoir
réjouir.
On va donner
consultations à
les Wrightsining Pre기를
et accélérer une
dizaine d'Indicats
et continuer adoption
On n'a pas un producte SLO ?
OK, c'est pourquoi tu es en train de faire des traces de SLOs à la maison.
Et, bam, maintenant c'est un des features de la main-d'oeuvre.
C'est génial.
Donc, tu as sorti dans la prochaine partie de la question
que nous allons vous demander.
Qu'est-ce que le
downside, ou peut-être un controversat, est?
Certaines personnes pensent que le plus vous pouvez
poursuivre les personnes en mode système, c'est mieux que ça.
Parce que, alors, il n'y a pas d'humain,
que nous n'avons pas vu ça,
ou que c'est beaucoup mieux parce que le robot a trouvé ça.
Nous sommes les robots.
Tu as pas d'accord avec ce statement?
Tu veux parler de ça?
Le travail de notre travail, comme des essoriers,
est de créer des systèmes qui sont en sécurité.
Si nous ne nous faisons pas exposer à ces systèmes,
nous allons commencer à se déranger d'un sens de ce que ces systèmes sont.
Donc, je pense que, oui, si quelque chose est toilier,
et que ça ne se dérangera toujours de la même manière,
les robots peuvent nous fixer.
C'est génial.
Si votre équipe de cloud ou de cloud de la maison peut l'abstracter,
c'est génial.
Je n'ai pas de pensée sur si mon database SQL
de la base de la base de la base est en fonction.
C'est un problème que la team de la SQL de Google Cloud
a des choses à faire.
Je pense que, il y a des zones où vous devez
faire des expériences,
soit des robots qui dérangeront ou d'autres teams qui dérangeront.
Mais pour vos systèmes,
je pense que le rôle de l'assistance machine est de nous aider
comme l'assistance amusante et copilote,
mais pas nécessairement comme le drier primaire.
Donc, la façon classique que je pense à ceci,
c'est, par exemple, deux technologies qui ont été construites à Honeycomb.
Une technologie est que si vous vous appelez une boxe à l'anomaly,
nous allons vous dire que ce sont les choses qui ont changé
dans cet anomaly.
Ce sont les choses qui sont correlées avec ce spike en l'anomaly.
Et peut-être que c'est une causation, peut-être que c'est une correlation.
La AI ne connaît pas vraiment.
Mais ça dit, ici sont des questions que vous voulez poser
pour refiner votre modèle de ce qui se passe au système.
Réfléchissez-vous, on parle de ce que le début de la surface de la service
est de l'aide de votre brain humain,
de reconnaissance de ce qui se passe au système.
Si vous êtes en train d'absorcer l'understand du système à une machine,
et que vous, numéro un,
vous êtes maintenant en train de se tourner le système
sans avoir une idée de ce qui va se passer à l'autre.
Et cette direction est de 737s,
situations où les gens pensent que le système est en train de faire une chose
et qu'ils ne l'entraînent pas du système,
parce que les modèles ont dévergé.
Donc, c'est vraiment important de guider les êtres humains
pour demander les questions correctes
pour qu'ils refiennent leur connaissance.
C'est la même raison pour laquelle nous ne pensons pas,
oh mon Dieu,
avec Corsair, vous pouvez avoir un robot et apprendre le truc pour vous.
Non, Corsair est un robot qui vous apprend à apprendre des choses.
Qu'est-ce qui est le nom de cette compagnie?
Connaigadémie, sorry.
Connaigadémie n'est pas un robot.
Connaigadémie ne peut pas apprendre des choses pour vous.
Connaigadémie peut utiliser l'AI pour déterminer ce qu'on veut apporter.
Je pense que vous pouvez mieux apporter le système
et mieux s'occuper de l'autorité.
Donc, le robot est un robot,
c'est pour vous dire ce que vous devez demander.
Vous vous regardez où vous devez, mais ça ne s'est pas fait.
C'est pour ça que vous devez faire la détermination.
Je pense que l'autre chose,
c'est d'aider les gens à former leurs questions brésilie.
Les gens ne doivent apprendre le langage des êtres humains.
Ils peuvent demander une question naturelle
et vont automatiquement être traduées en langage des êtres humains.
Et en temps, les gens vont apprendre un langage des êtres humains
et avoir des exemples de la question naturelle.
C'est une question de l'outil.
Maintenant, le prochain sera plus précis.
C'est le spectrum de la question AI assistante.
Bien sûr, je suis sûr que vous avez ou n'avez pas
Tad sous le projet dans le futur.
Je sais que Tad a des choses très fascinantes
sur ce sujet.
Il a des opinions sur tout.
Je suis sûr.
C'est un des choses qui sont récemment en train de faire.
Vous et moi avons eu des désagréments très milds.
Je pensais que c'était un peu de fun.
Ce n'était pas comme ça.
Ne vous inquiétez pas, Jordan.
J'ai posté un truc que je suggère à des nouveaux équipes
qui sont, ne vous inquiétez pas pour des problèmes en production.
Ne vous inquiétez pas pour trouver des problèmes
si vous n'avez pas de raison.
Et votre réponse à ça, c'était vraiment bon.
Je pensais que c'était comme ça.
Oui, vous devez.
Il y a des bonnes raisons pour être en train de se faire.
J'espère que nous pouvons cléter ça un peu aujourd'hui.
Oui.
Qu'est-ce que vous pensez que ce soit?
Je pense que c'est vraiment important pour les gens
de la base pour ce qui se passe dans leurs systèmes.
Parce que si pas, vous vous rendez en train de faire des problèmes.
Lorsque il y a un instant actuel, vous ne pouvez pas dire
que vous avez fixé un problème réel ou que vous avez fixé
un problème moins important.
Totalement.
Je pense que, en parlant de ce que je vous ai dit
sur les modèles mentaux, si vous n'avez pas vu
l'investigation en production, vous n'avez pas voulu avoir
un modèle de production mentale.
Oui.
C'est-à-dire que si vous prioritisez faire un
feature important vers la 20 secondes de l'oncité
pour 1 % des utilisateurs, parce que ça a semblé que ça a l'air weird.
Vous savez, prioritisez le feature probablement,
mais si vous...
Je pense que j'ai parlé de ça avant, dans d'autres
médiums.
Si vous êtes en train de faire un call, si vous êtes
dédicé à un call cette semaine,
et que vous n'êtes pas censé faire un feature
de tickets,
prenez votre temps à regarder la production, pour avoir
un sens de ce que les choses semblent comme cette semaine.
Et aussi, votre travail n'est pas nécessaire de travailler
sur les tickets cette semaine, vous pouvez aussi aller
filer sur les ruffes que vous trouvez,
pendant que vous vous portez autour.
Je pense que c'est la valeur de dédiciter le temps
de regarder la production, mais ne pas le déstracter.
Ne pas le détecter, ne pas le détecter
et ne pas le détecter.
C'est un peu trop important, mais c'est un peu important.
Il y a aussi l'idée que les systèmes distributifs
peuvent tolerer des formes de défaut.
Si un component n'est pas très bon, mais le système est
bon, le système est bon.
Donc, être aware de ça est très important, très bon.
Ça ne veut pas que vous faîtes fixer ce qu'on veut,
ou demandez que ce qu'on ne vienne jamais de losser.
Parce que, si le système est capable de se dédiciter,
vous pouvez même être dans un état de dédicitation.
C'est vraiment bon d'être aware de ça,
parce que vous n'avez pas encore besoin d'un autre chose à faire sur le dessus.
Exactement.
Vous devez savoir ce que est votre marge de sécurité.
Est-ce que je suis dans un état de dédicitation ou pas ?
Si vous pensez que vous avez des extra-layers de défaut,
mais vous ne l'avez pas, c'est un problème.
Vous allez faire des bons résultats.
C'est très bon.
Donc, c'est vraiment impliqué pour beaucoup de choses,
pas seulement le SRE,
mais comprendre ce qu'une base est en général,
et comprendre ce que l'on peut donner.
C'est un concept impliqué pour tout.
Comme vous savez, je suis un PDGM,
donc je vais me faire wearer cette haine juste un petit peu.
S'il vous plaît,
c'est la même manière que nous dédiciter ce qu'on a de priorité
en termes de ce qu'on a de l'autre.
C'est la même chose que ce qu'il faut être fixé en triage
pour ce qu'on a de l'air.
C'est le même concept en général.
Donc, en savoir ce que votre base est en général,
ce qui est le point de l'application de prod,
je sais que les choses sont de l'air de maitre,
et cela m'a aidé à me définir.
Dans le prochain futur, je peux faire cela mieux,
parce que je sais ce que cela ressemble à.
Mais si vous ne savez pas ce que cela ressemble à,
et que vous ne vous en avez pas le temps de faire,
et de se faire en sorte que vous ne le savez pas,
vous ne pourrez pas savoir que un futur est besoin,
ou un changement est besoin pour improving ce space
pour vous-même,
pour les utilisateurs,
ou pour les end-users,
qui sont en train de se faire un peu mal,
mais je ne vais pas compléter parce que cela fonctionne.
Oui, vous voulez se rapporter avant de les faire catastrophiquement.
Exactement.
Il y a des symptômes de ce genre,
je me sens un peu mal,
mais je ne suis pas mal.
Donc, comment vous utilisez la SRE
dans les prochaines deux années?
Est-ce que vous ne voyez pas la serein d'un deuxième année?
Et donc, ce n'est pas seulement pour votre équipe,
mais pour l'industrie.
Je pense que le SRE est un travail qui va continuer à exister.
Je pense que l'idée de avoir une département de SREs
n'est plus nécessairement faible pour la cause.
Donc, nous nous sommes vu cette migration
des équipes à l'exploitation de la modèle d'engineering,
où vous êtes unis des SREs
et des gens qui font des systèmes de construction,
des gens qui font des plateformes UX,
et qui sont en train de faire des UIs.
Toutes ces fonctions de production de engineering
sont en train de se faire.
Et je pense que c'est une bonne chose,
parce que, à l'endemain de la journée,
nous sommes tous en train de servir des différentes façons
de l'expérience de développement et de l'expérience de l'accent de la sereine.
La sécurité est un autre de ces deux.
Donc, quand vous pensez à cela de cette façon,
cela fait le sens pour nous de travailler ensemble avec autres équipes,
comme la sécurité, comme les pipelines de construction,
pour faire sure que cette expérience est la même chose,
et que nous pouvons pouvoir en multiplier et aider les développeurs de software
pour faire les meilleures job que possible.
Donc, je ne pense pas qu'on devrait être un peu clairs
sur les directeurs de la sereine et des vp de la sereine,
et qu'on a plutôt l'impression de voir ce qu'il y a,
ce qui est un peu plus de l'activité de développement de la sereine.
Merci.
OK.
En bas de cela,
il y a des gens qui sont peut-être en collège,
qui pensent en quelque sorte de software,
peut-être une sereine, peut-être une autre.
Mais, en plus de cela,
quel conseil vous donneriez à ces collèges-là
pour ceux qui sont intéressés à faire le Internet
plus grand, plus rapide, pour tous ces casquets
que nous, les gens, voulons utiliser?
Je pense qu'il y a beaucoup de avenues et opportunités,
et il y a 20 ans.
Certainement, 20 ans, vous avez vraiment dû
travailler très bien pour trouver un environnement
où vous pourrez avoir l'accessité
à des systèmes de la scale de la sereine
pour pouvoir vraiment voir
certains des événements qui se sont dépassés en production.
Je pense qu'il y a maintenant des programmes de collège
qui vous permettent de vous enlever
vos mains d'une certaine,
en travaillant avec des systèmes réels qui peuvent peut-être s'y faire.
Je sais en particulier...
C'est un truc que...
Mikey Dickerson.
Mikey Dickerson a mis ensemble un programme de collège
que il a appris à Pomona
et a offert à d'autres gens
qui apprennent à des collèges
de faire des choses, de créer et de faire un service
qui s'occupe de l'artisanité,
et puis il augmente les critères
dès que la sereine s'occupe,
pour que vous puissiez construire un système de serein
pour les premiers principes.
Je pense que Mikey Dickerson est incroyable.
Donc, regardez où cela a été offert
et essayez d'en prendre l'adaptation.
Parce que c'est l'indi conformité
d'arrêter ma delivery avec ces choses.
Mais également, les Dáater Su
sont très creux,
notamment si ils font une demi- Migrac13 in
place où vous pouvez l' tripod.
Erin, Movie poczement,
on sait quand on va faire de l'affaires
d'un groupe.
les plus intéressantes compagnies de la prochaine 5 ou 10 ans.
Et elles ont expéré des challenges de scaling
que vous n'aurez pas nécessairement vu à n'importe quoi.
C'est génial.
Merci beaucoup.
Donc, juste pour vous décrire, est-ce qu'il y a quelque chose que vous voulez
faire avec ou dire à notre audience ?
Et bien sûr, où peuvent les gens entendre plus de vous
et apprendre plus sur ce que vous faites à Honeycomb ?
La première sur Honeycomb.io est Honeycomb.io.
Et ma site est lissdegray.com.
Et oui, je pense que la main
observabilité est quelque chose d'un spectrum
et que c'est quelque chose que vous pouvez espérer
pour mieux le faire.
Ce n'est pas un événement de l'un à l'autre.
Ce n'est pas un « je n'ai ou je n'ai pas »
C'est quelque chose où juste investir un peu
peut faire des retours au-delà.
Et je pense que, en regardant le thème de SRE,
cela m'a aidé à atteindre le but
de avoir des meilleures SELAs de rencontrer les SELAs.
Excellent.
C'est un bon take-away.
Merci, Liz.
Merci d'avoir regardé avec nous aujourd'hui.
C'était super chiant.
C'était génial de vous voir et de parler avec vous
et de apprendre plus sur l'observabilité,
ce qui est, en fait, toujours évolvant.
Il y a toujours des choses à faire, je pense.
C'est génial.
Merci beaucoup.
Merci.
Bye.
Episode suivant:
Les infos glanées
GoogleSREProdcast
SRE Prodcast brings Google's experience with Site Reliability Engineering together with special guests and exciting topics to discuss the present and future of reliable production engineering!
Tags
Building Reliable Systems with Silvia Botros and Niall Murphy