
Life of An SRE: Life after Google SRE, with Carla Geisser, Cody Smith, and Laura Nolan
Durée: 46m32s
Date de sortie: 07/11/2023
Former Google SREs, or "Xooglers", talk with hosts MP and Steve McGhee about site reliability engineering outside of Google. What’s the difference in scale? What skills are generally valuable? And why can’t you build “SRE in a box” that jump-starts pretty much any organization?
Join Carla Geisser, Cody Smith, and Laura Nolan in their lively conversation about what SRE skills and knowledge they have found useful in roles outside of Google.
Hello and welcome to the final episode of season 2 of the Google SRE podcast or as we affectionately refer to it, the podcast.
I'm your host MP and we have a very special episode in store today. So through all of our previous episodes, we have had current Googlers join us to tell us a little bit about their life and their role at Google and their experiences as an SRE.
Et aujourd'hui, nous avons trois gens qui sont venus nous, qui sont des SREs de former Google, qui ont maintenant été dans des ventures différentes et nous allons entendre leurs expériences.
Et pour ce qui me concerne, je suis très heureux de tout ce travail de lui en mettre sur le panel. C'est mon co-host aujourd'hui, Steve. Vous pouvez vous interpréter, Steve ?
Bonjour MP, j'ai le plaisir de vous dire. Je suis Steve McGee. Je suis un peu dans le cas de la première catégorie, car je suis un SRE pendant 10 ans.
Et puis je suis parti. Je suis devenu un ex-Zougler. Je suis allé dans une autre compagnie depuis un temps et je l'ai appris comment faire des cloud.
Et je l'ai trouvé très difficile. Donc je suis revenu de retour à Google. Je suis revenu de retour à Google pour aider les clients à apprendre à construire des systèmes résilient et de réel sur le cloud.
C'est mon travail maintenant. Je suis un advocate de la reliable, qui est un titre que j'ai inventé. En fait, vous pouvez juste le faire. Et maintenant je fais de l'argent comme ça. C'est très bien.
Merci beaucoup pour nous en joindre, Steve. Et pour mettre cela ensemble, c'était très aidant de vous avoir organisé tout cela pour nous.
Vous avez le droit.
Alors, allons-y, nous allons nous présenter nos panelists.
Bonjour, mon nom est Cody Smith. Je suis à Google depuis 2004 à 2018. Je suis commencé dans un groupe qui s'appelle ClusterOps.
J'ai spenté la plupart de mon temps à Google en travaillant sur le search. J'ai fait une leadership pour le global, comme un lead de production en SRE, pour un moment.
Et puis je l'ai fait dans le cloud avant de me faire de l'inviter. Je suis commencé à travailler en énergie, en fait, qui s'appelle Camu Energy.
Et le CTO, maintenant, nous aidez à décarboniser les utilités électriques.
Bonjour, mon nom est Carla Geiser. Je suis un ingénieur de site de la reliable à Google depuis 2004 à 2015.
Je travaillais en général sur les systèmes de storage de large scale qui déclare beaucoup de Google's infrastructure.
Et après ça, j'ai pris un peu de temps de faire une consultation dans le gouvernement fédéral.
Et puis j'ai commencé à formuler une petite réponse incidentale à une company de consulting avec quelques autres formes de Google SRE.
Je suis Laura Nolan. Je suis à Google depuis 2013 à 2018.
Donc, j'étais un peu plus tard à la vintage que Carla et Cody.
Et pendant que je suis là, j'étais en SRE, surtout sur les pipelines et les databases d'ad.
Nous avons une très grande chose d'un warehouse de données, qui s'appelle Mesa, et un pipeline multi-homes, qui s'appelle Photon.
Vous pouvez lire les papiers sur ces données.
Lors de cette fois, j'ai fait un mouvement complètement différent et travaillé sur la plage de la réseau,
qui était la plage de la réseau, qui était la plage de la réseau, qui était dans le SRE en temps.
Quand je suis à Google, j'ai travaillé pendant 3 ans à Slack.
Vous pouvez voir des posts de blog incidentaux que j'ai écrit dans cette période.
Là, j'ai travaillé sur le discovery en service, le mesh en service et la balance de la base de la base.
Je suis maintenant en train de faire un petit start-up pour une stage de formation, qui s'appelle Stanza.
Je suis un ingénieur. Nous faisons production predictable.
Je travaille maintenant principalement sur la plage de la réseau et l'automation.
Je suis en Isle.
Merci beaucoup pour vous joindre aujourd'hui.
Steve, pourquoi ne vous donnez pas la première question pour le jour?
Bien sûr.
La jolie internaison sur la sRE est que,
quand vous vous inquiétez sur les choses que vous avez appris dans Google,
est-ce que vous allez être applicable si vous choisissez de laisser Google?
Je pense que la première question est,
est-ce que vous avez raison?
Je ne sais pas la réponse de ma propre.
Je sais que les choses sont transferables,
mais comment est-ce que vous avez raison?
Quand vous avez laissé Google,
avez-vous trouvé que votre knowledge de la Stubbie était utile?
Oui.
Google est un peu de choc, c'est vrai,
mais çaย est comme des personnages de l'immuneering,
mais des άλλers individus De dictate le temps.
On nous remana aussi dans des enquêtes à scérer
dans dix déc manipulating,
speaks aussi d'une chose pour moi,
que maintenant c'est un entier au moinsiferation de la東ache,
c'est la partie que tu dois venir s'en aller à la vitesse. Je pense que si quelqu'un qui t'aie
fait plusieurs ans dans une grande complète, ça fait que la façon dont il va avoir un
peu d'une curve de la classe.
Le moyen que j'ai vu cela se dévraie par un ami recentement, c'est que les
properes nouns sont différents quand vous vous laissez Google, mais les concepts sont
tous les mêmes. Donc il y aura un truc qui ressemble à un load balancer,
il y aura un truc qui fait des limites de rate, il y aura des systèmes de storage,
ils ont tous des différents noms, selon quel cloud provider vous utilisez,
ou ce sont les systèmes internes qui ont été construits et qui ont été construits
dans l'organisation, mais les raisons dont ces choses existent et les raisons
qu'ils ont faiment, vont continuer à être les mêmes.
Et donc ce qui a été très aidant dans tout le environnement que j'ai travaillé.
Oui, je l'avais appris.
Je ne vais pas certainement pas faire de la faim en enregistrement de la langue de
Bourgman, mais je pourrais enregistrer le config Prometheus, et ça serait très
similaire. La choisi de technologie, je dirais, est une des plus grandes
difficultés, des ajustements pour faire.
On doit pouvoir regarder un piece d'opinion d'opinion, et figure
si c'est une bonne idée de l'utiliser ou pas.
Mais à Google, vous êtes sur le terrain des gens qui ont déjà
regardé les options et ont fait des décisions, et il y a un sens de
s'améliorer de la communauté dans la société.
Et donc, vous ne devez nécessairement avoir ça quand vous êtes au
博 de bi 생 et convers en avec d'autres les mai.
ropox stock t pour proposer la perte
assis.
Je n'ai pas rien deurt à savoir film deięta tinham
Gl niemand d
starterer du
Donc, ce qui change un peu les choses que vous devez faire en monde au-delà de l'extérieur.
C'est absolument possible.
Je pense qu'une autre chose qui est vraiment intéressante sur le monde au-delà de l'extérieur,
c'est que vous nevez pas avoir cette uniformité que vous avez,
en basant sur le texte de Google.
Donc, sur Google, vous pouvez relier sur tout le being d'OrpC et d'OBW,
alors que vous nevez pas avoir, et peut-être que vous vous devez avec Thrift,
et Message Pack, et...
D'accord, c'est ce que je veux dire.
Vous n'avez pas les 3 portes de Google,
vous devez avoir des services de santé, des services de PCZ,
et tout ça.
Et ça fait que ça ne fait pas plus de temps que de faire des tournes,
parce que vous n'avez pas ce sort de surface de contrôle garantie à l'attacher.
Je pense que c'est pourquoi nous avons vu une explosion
de tournes autour des Kubernetes,
parce que les Kubernetes vous donnent une uniformité de surface de contrôle
que vous pouvez construire de l'application,
et que vous n'avez pas de la organisation de transport relativement.
Oui, on dirait que les administraires idéaux
working dans la Christiane derrière Google
showed une utilité agricul monte glaube auพ.
Et maintenant, nous Seconds3e,
et c'est l'oppopité.
Cette familiarité avec les tools cloud
va en un long moyen.
Je voulais vraiment vous donner un peu plus
de ce genre de choins de termes,
ce genre de choins de schale de bouger
sur Google, au-delà de Google.
Je dirais que j'avais une expérience
même avant que je me suis mis à Google
quand j'ai aidé à l'hôpital.gov
où quelqu'un m'a dit
que ce must be le plus grand système
que vous avez travaillé.
Je pense qu'il y avait peut-être
500 compétences
qui étaient les plus intéressantes
dans le système.
Ce système était
comparé à les systèmes que Google
a fait sur un basis de date.
Ce n'était pas du tout.
Mais c'était énorme
pour le gouvernement fédéral,
même pour une compagnie medium-sized.
C'était un système de software.
Mais pour moi, ce n'était pas très bien.
Ce système était toujours compliqué
et broken
dans tous les espaces.
Mais ce n'était pas grand.
Il y a un niveau de complexité
de la scale.
C'était quelque chose qui m'a aidé.
Si vous changez quelque chose
à l'infrastructure,
ou vous vous portez un autre chose,
et vous voulez avoir le plus de services
existants,
vous pouvez aller
et les mettre en place,
en essayant de faire des
choses pour vous,
ou de faire un tour de la chaîne.
Mais ça devient plus économique
de juste aller et faire des changements.
Parce que vous êtes en train
de faire des doigts
ou des centaines de milliers de services.
C'est un peu différent.
Oui, c'est certain que
dans ma période de Google,
je n'aurais jamais eu
une service qui n'avait pas de
réplication,
même dans un cluster.
Mais maintenant,
nous avons des déploiements de notre produit
pour les clients.
Tout le déploiement
a le même nombre de replicas de notre front-end,
qui est un.
On n'a jamais besoin d'un plus.
Il n'a jamais été un.
Donc, ça nous donne un autre question.
Qu'est-ce que vous aimez
votre nouveau travail ou votre nouvelle roule?
Ou quand vous avez oublié Google
et vous avez rejoint le prochain endroit,
qu'est-ce que vous êtes excitées?
Et vous êtes super heureux de voir
une pièce de tech ou de culture,
ou peut-être le snack tray,
comme tout.
Qu'est-ce que vous avez fait de la smile
dans le nouveau endroit?
Après Google,
et après quelques
jobs intermédiaires,
j'ai formé une company de consultations
qui m'a appelée laire a laf
avec quelques autres formes Google
et je l'aime parce que c'est
le meilleur des parts
de l'arrivée de l'envers de
un projet de SRE.
Nous espérons
que nous voulons
démarrer des équipes
qui tentent de
réimager leurs opérations de production
ou de récoverir
d'une crise.
Nous avons pris un très
long temps avec ces gens
dans l'ordre de la fin de la semaine
et essayons d'aider à leur
travailler sur leurs problèmes
et de voir comment
ils peuvent s'improuvoir.
Et puis,
nous avons récouru nos reportages
et nous avons récouru
dans la même manière
que nous avons été aidés.
Pour moi,
c'est le meilleur
part de mon expérience
de l'envers de SRE.
C'est la
apprendre,
la rapidement
de faire les connections
avec les autres
ingénieurs
dans une organisation
que je n'ai jamais
vu avant,
la apprendre
comment leurs systèmes
travaillent et de
essayer de figure
ce qui se passe
rapidement.
C'est un peu de fun.
Je pense que la chose
que je me vale la plus
de ce que je suis
maintenant est
très petit,
ce qui signifie
que nous pouvons
aller vite.
Nous avons tous un niveau
de l'autonomie.
C'est
un produit
qui travaille.
C'est un produit
qui est envers la reliant
de la fonction
de la production.
C'est un
élément
de créativité.
J'ai
dit que
je n'ai pas
perdu les jours
de la production
de la production
de la production.
Carla a
dit qu'il y a des parts
les meilleures de la
production,
de la
fonction de la production
entre les systèmes,
c'est un truc
qui résonante.
Nous
tentons de
construire des tools
qui vont aider les gens
à faire ça.
Je pense que
ma expérience
était
assez bizarre.
J'ai
démontré
dans un secteur
complètement différent
de l'énergie
avec des utilités
J'ai
conçu des gens
qui travaillent
sur le search.
J'ai
conçu des
clients de billion
et je l'ai
conçu
tout le temps.
À Camus,
nous avons
6 clients.
Nous
avons une relation humaine
avec les 6.
En
travaillant
sur la décarbonisation,
c'est
super
réwardant.
Ils
ont des projets
qui sont
trombés
sur
des
choses
simples.
On
a
besoin
de
des problèmes.
Et
le sol
va leur faire
déployer
20 MW
ou 50 MW
de batterie
et
offrir
beaucoup de missions
qui
auraient
de la force
de vos plans de
Quand tu as
un travail,
la prochaine question
serait
qu'est-ce que tu fais
ou
que tu as
un
premier
et
un
métier
tech
ou
un
travail
ou
des choses
qui
réconvénients.
Qu'est-ce que
tu as
comme
une
foule
ou
quelque chose
qui
t'a
créé
pour
faire
le premier
travail
sur Google ?
Mon
travail
partie
culture
et process
d'une
de
le faire
une
semaine
et
de
la
discussion
de
ce qui
s'est
et
la
question
de
ce qui
s'est
ensuite
membr headache
question
de
ça
de
그렇게
dry endlich
est consécutif de retourner les résultats ou est consécutif de la salle.
Ce qu'il peut faire c'est que vous pouvez basiquer l'offre un peu plus tard.
L'idée ici est que si vous avez un overload de temps limité,
vous pouvez commencer à faire ça en plus de plus de résultats.
C'est particulièrement efficace si vous avez un phénomène
où les clients commencent à hammerer les services avec retrait
quand les choses se sont un peu plus lent et plus flakés.
Et je pense que la pensée est une idée similaire
où vous vous mettez un overload de temps
sur comment beaucoup de réquests peuvent aller de là à là
ou un délai entre les réquests répétits.
Pour contexte, j'étais partie de la équipe
qui a pu faire un installation très grande de console,
qui a un peu d'interessants de design.
Dans certaines conditions, c'est très proche de dire
des chuteurs et des choses qui sont complètement amusées.
C'est la seule façon de le mettre.
Ce n'est pas de manière de timer les réquests
qui ont été hangés pendant longtemps.
Vous pouvez en finaliser avec votre service,
juste de s'y établir,
ne pas faire de la ménage,
ce n'est pas un bon état pour s'y aller.
Mais quelques petits clés de la tueur
ont vraiment aidé la stabilité de ces services.
Je pense que je suis dans un petit peu de différents places
parce que mon rôle l'héritage est de vous montrer
et de vous donner des conseils de la réhabilitation
pour que l'organisation soit plus forte.
Ça a été vraiment drôle.
Je dirais que les conseils de la réhabilitation
qui nous ont été donné à la personne
sont les priorités de production
contre les autres choses
que le business peut essayer de faire.
Un peu de gens à ce point
ont lu le livre Google SRE
et ils connaissent les mots SLO et SLA
et ils sont très excitées de commencer à impliquer ces choses.
Mais ce n'est pas nécessairement le cas pour eux
et pour eux, c'est un peu de problème.
Ils ne peuvent pas avoir assez de production de hygiene
et ils ne peuvent pas savoir vraiment
tout ce qu'ils ont fait et donc,
à partir d'abord, ils disent qu'ils ont besoin de SLA
et que les SLA ne peuvent pas les aider.
Ils sont malade pour ne pas savoir
comment leurs systèmes se sont performés.
Et donc, beaucoup de choses sont en bas.
Qu'est-ce que votre système est en train de faire?
Qu'est-ce important de votre système?
Qu'est-ce que la fonction de business est en train de servir?
Qu'est-ce que le SRE a pu être un partiel de la production?
Nous avons commencé à construire des utilités électriques
en leur prenant la confiance,
en leur donnant un produit qui était à la hauteur.
On veut ensuite avoir des orchestrations
qui contrôlent des énormes choses sur leur grid.
Mais on a aussi des choses qui sont en train de faire
et que, avant de faire ça, nous devons prouver
que nous pouvons être prédictifs.
Nous avons montré à l'arrivée de notre première customer
et ils nous ont pris à l'inter�i et nous avons vu leurs systèmes.
Ils ont probablement fait 5 ou 6 différents
systèmes de computer
pour différents parts de leur grid.
Donc, beaucoup de ce genre de « des opérations »
qui sont en train de partir de l'un à l'autre,
sont en train de faire des post-it.
Donc, le déploiement initial de notre produit
a été, on va prendre tout ce data
de tous ces différents systèmes et le faire en un endroit.
Vous avez une web app
où vous pouvez voir la plupart de ce que vous avez besoin de savoir
pour faire votre grid des jours.
Et puis, après que nous avons dévoilé,
nous avons pu nous faire un « plus scère »
de leurs offerts.
Donc, on a montré un « stepping stone »
pour nous dans notre produit roadmap.
Ça ressemble à l'expérience de Mikey,
le pyramid de Dickerson,
que nous avons vu, je ne sais pas si Carla s'est dit tout le temps.
La montagne nous aide à commencer, si vous n'avez pas le droit.
Je voulais mettre un petit peu d'indépendance
sur ce que Carla a dit,
qu'il n'y a pas de place à commencer.
C'est quelque chose que j'ai très fortement appris.
Je pense qu'il y a eu un peu de pression,
le premier que vous devez faire si vous implementez l'SRE
est le SLO.
Si vous avez demandé à 100 personnes,
il y aurait eu 90.
Je pense que la raison pour cela est
que les SLOs sont standardisés.
Vous pouvez faire une récipe pour les SLOs
et vous pouvez construire un produit pour ça.
Vous pouvez faire ça,
et l'organisation peut commencer à faire ça.
Mais Carla est en train de faire ça,
au bout d'une anterior obt Superman,
ou si vous avez de l'espoir dans 2000 qu'il a,
c'est salaire des choses qui notreECT les Exkibord,
et on peut te prého zombiesz ça,
de la même manière. Vous ne pouvez pas construire un produit qui est un box de serein qui va venir
et comprendre vos systèmes et vous donner ce contexte d'aware et de prendre des
systèmes. Je pense qu'il y a quelque chose de très mauvais que ça.
Toujours faire le SLO pour un simple.
Je pense que c'est aussi évident que quand Google s'en met un papier ou une pièce de documentation,
les gens pensent que c'était uniformement adopté à l'intérieur de Google et nous avons
étendu de notre expérience que ce n'est pas vrai. Même l'adoption de quelque chose comme le SLO
est très lumpy à l'intérieur de Google. Toutes les technologies de various histoires qui ont été
étonnées. L'adoption de ces ont été décadées en quelques cas. Et je pense que ça,
d'au-delà de l'extérieur, est difficile de balancer avec les gens parce qu'ils le voient.
Et c'est vrai avec Facebook et d'autres entreprises qui ont publié leur culture d'internel
enceinte. Les gens pensent que ce qui a été publié est comment la whole
compagnie fait ça uniformement et que ce n'est pas vrai. Ces choses vont toujours être
déployées par une grande orée ou par des circonstances spécifiques dans une grande
compagnie.
Absolument. Et il y a plein de teams, même dans une grande organisation, qui peut avoir
le Potemkin Village SLOs où ils ont une chose qui ressemble à un SLO, mais ce n'est pas
vraiment ça. Ils ont picked un métro random et ils ont picked un numéro qui serait passé
pour les dernières quarts et c'est leur SLO maintenant. Parce que quelqu'un a dit qu'ils
avaient des SLOs. Donc, même dans les grandes organisations, les choses sont différentes
entre les teams.
Mon travail à ces jours est de parler avec des customers Google Cloud, et je peux
complètement s'y agir avec vous. Tout le monde veut faire des SLOs avant même si
ils ne sont pas prêts pour eux. J'ai eu quelques clients qui n'ont pas
simplement les méchants, leur observabilité n'a pas la granuléité, ou n'existent pas.
C'est un travail qui est très difficile à comprendre.
C'est un travail qui est très difficile à comprendre.
C'est un travail qui est très difficile à comprendre.
Mais ça me fait penser à la question de l'autre.
Quand vous allez dans une culture ou une équipe, est-ce que vous allez après la
fête de la fête de la fête de la fête ?
On ne peut pas faire des choses comme ça.
Rien à customer, si le plant est dans notre passage,
le nouveau se déduive pour�ner dans les actions,
gen Marion de Kontop court.
nous sommes intégrés avec des systèmes de utilisation.
C'est un ton de travail et la responsabilité des mots
est un peu infréquent.
J'étais espérant que ce soit plus front et centre
parce que je sais que les utilités
ont beaucoup de responsabilité pour leurs clients,
mais surtout ce qui drive la responsabilité
que les clients ont de choses comme
les branches qui se sont en charge de l'éloignage
et les squarles qui sont en train de se transformer.
Vous avez été en SRE longs,
vous avez été exposés à d'autres choses
et d'autres équipes.
Je me demande si vous pensez que SRE
a été co-évolué ou quelque chose
comme la SRE.
Est-ce que la SRE est vraiment spéciale?
Si vous pensez que c'est un réplica
dans les industries ou dans les autres,
quel sont les qualités que les autres gens
ont fait pour nous?
Je pense que ce que je suis en train de faire
est que ce n'est pas juste de Google,
je pense que c'est juste dans le univers
et que nous avons juste étendu.
Je suis inquiétant si vous le venez.
Mon théorique de SRE est que la SRE
est une manifestation de système de production
spécifique.
Nous le faisons en un moyen informatique.
Si quelqu'un veut entendre plus de ça,
j'ai donné un de mes notes sur la SRE
Melanie,
je sais que ce serait introduced
par les risques de s'acheter
Que sayeul
cłacha est à mesure de cree
de se considérer
comme une Kash generate
un pénal seria mondial Jade
et de voir comment ces patterns et interactions dans un système
ont été mis à des comportements différents.
Donc, pour les essais, un exemple de la structure,
des comportements de la structure que nous sommes allés connaître,
c'est l'idée de l'esprit de l'esprit de la fête de la casquée,
ce genre de cycle vicious de la cause qui fait des retraités,
qui fait des plus de loads.
Et ensuite, vous avez l'intervention de se faire sortir de cet état de métastapes.
Et c'est l'insight des systèmes.
Mais il y a beaucoup de différents types d'insight des systèmes.
Et il y a beaucoup de méthodologies que nous pouvons utiliser
pour analyser, particulièrement la réliabilité de notre système.
Donc, il y a un truc qui s'appelle l'East BL,
qui est basé sur des liens qui sont broken.
Et l'idée ici, c'est que vous regardez toutes les structures contrôles
dans votre système, donc, ce qui parle de quoi et les décisions
basées sur cette interaction.
Ça peut être votre monitoring, peut être votre santé,
peut être les PC, le fait d'une automation entre vos systèmes,
peut être les interactions dans votre plan de données.
Et vous dites, mais ce qui se passe si ce système de lien se breakage,
ce qui se passe si la trafic augmente par 100%,
ce qui se passe si c'est le cas.
Et c'est une technique vraiment valable pour regarder votre système
et dire, OK, comment est le système vulnerable ?
Comment peut-on évoluer le design de ce système
pour faire cela plus robuste
pour tous ces trucs qui peuvent se faire mal ?
Si vous regardez sur le SRE,
un grand nombre de systèmes, c'est ce genre de choses.
Regarder le système et comprendre sa comportement
et comment cette partie ici
affecte cette partie là-bas
et comment la structure du système
et les potentiels changements
peuvent se faire mieux ou moins.
Donc, c'est vraiment en pensant sur le système
et comment nous pouvons faire des interventions
pour faire cela mieux.
Et ce n'est pas seulement les systèmes techniques,
mais aussi les humains autour du système.
Comment pouvons-nous être mieux informés ?
Comment pouvons-nous travailler mieux ensemble ?
Comment pouvons-nous nous faire avec l'aim, avec la lessie,
ce genre de choses ?
Donc, c'est mon théorie unif de la vie.
Et si je pense que c'est évolutionné ou autre,
je pense que c'est toujours un grand souci
qui a fait des choses très similaires
à la façon dont le SRE a fait cela.
Peut-être pas avec des keywords, comme les SLOs,
mais avec beaucoup de la mindset.
Je ne pense pas que la mindset est distinctive de l'SRE.
Je pense que il y a relativement
quelques systèmes et des pensées dans le monde.
Le SRE a une fraction de leur stagaire.
Et c'est une skill très valuelle
qui apprécie bien à beaucoup d'autres
industries.
Je pense que le livre, je recommande que les gens ne l'ont pas
lu par D'Annella Meadows,
qui s'appelle « Thinking and Systems ».
C'est un bon élément sur ce sujet.
Pour moi, je pense que le plus important
sur le SRE est que ce soit le cas
quand vous prenez un petit nombre
de motifs et opérateurs qui ont été impératifs
et qui donnent leur responsabilité
pour quelque chose qui est critique pour le business.
Et il doit être une responsabilité
pour l'ensemble des choses.
Je pense que les choses qui semblent
comme le SRE ou les DevOps
ou les autres mots de buzzwords
qui vont se faire en 5 ans
existent et ont existé pendant longtemps
juste parce que vous avez installé les gens
et vous avez installé leur travail.
Et pour le moment, il y a un petit groupe de gens
qui sont impératifs et motivés
pour acheter un système critique,
et ça va être quelque chose
que le SRE va évoluer à l'autre end.
Je pense que j'ai entendu
deux ou trois facteurs de plus différents.
Un petit groupe et des impératifs
et peut-être quelque chose
dans les lignes de la stade.
Scope, pourquoi pensez-vous
que c'est ces trois facteurs
qui produisent ce genre de SRE DevOps ?
Je vais commencer avec le scope de la fin
parce que je pense que c'est le plus facile
de l'expliquer,
et c'est qu'il n'y a jamais
d'autre groupe qui peut évidemment
vous dire que c'est cool,
ma responsabilité est ici,
c'est pour ça que c'est leur faute.
Vous devez ressentir
une responsabilité pour le système de fin à fin.
Même si il y a peut-être
d'autres groupes qui vous ont besoin de travailler,
votre propriété
doit se faire croire dans un certain nombre de temps.
Le petit groupe est
surtout sur les communications
et les constructions
qui sont très efficaces.
Je pense qu'il y a un peu
d'organisation de recherche
que les petits groupes
peuvent travailler mieux.
Et puis ils se produisent
parce qu'ils doivent,
parce que le business se produisent,
et puis vous expliquez les groupes
de part à plusieurs fonds.
Et c'est comme un cycle normal
de comment les organisations se comportent.
Mais pour le faire,
une chose qui semble être SRE
commence à être petite, pour sûr.
Donc l'impair de la fin à fin
est qu'ils doivent
avoir l'obligation de changer
ce qu'il y a dans leur façon
ou de changer le demandant
pour ce qui fait que le système
soit irréliable.
Parce que si vous repassiez très rapidement,
et nous avons tous été là,
à l'éloignage de l'éloignage
de l'éloignage de l'éloignage de l'éloignage,
où le software ne marche pas,
vous devez le déployer de toute façon,
et puis tout le monde
se déloigne à l'un de l'autre
tout le temps.
Et vous vous en avez juste
dans ce monde, toujours.
Quand je suis sur le sur-leve
de l'espace,
je l'ai appris le terme
de rester dans votre lane,
ce que je n'avais jamais entendu.
L'un de mes gens m'a dit
de rester dans ma lane
quand j'ai essayé de m'aider
à l'extérieur de ma scope,
et il m'a dit de la même manière.
Je n'étais pas préparé
pour être dit, c'était très étrange.
Et depuis, j'ai dit
de la suite des fois,
mais le dire de SRE
de rester dans leur lane
est complètement
antithétique
pour leur entire vie.
Je suis totalement d'accord
avec ce point.
Et vous pouvez probablement
construire un très bon SRE
juste au-delà des gens
qui ont été éprouvés
de rester dans leur lane
à un moment.
C'est un groupe de gens
si vous pouvez les trouver,
ils seraient un grand SRE.
Oui, ils sont éprouvés.
C'est un des challenges
intéressants
sur l'essayer
dans une organisation
qui est très reliant
sur les services de cloud,
parce que vous vous êtes
en situation
où vous essayez de
voir comment ça fonctionne
et comment
faire les choses.
Mais,
tout de suite, vous avez
cette grande barrière
dans votre façon
et vous travaillez
avec un service
que vous avez
très peu de visibilité
et vous pouvez parler
de les équipes.
Et,
c'est vraiment
une chose
qui n'a pas nécessairement
une bonne réponse à ça.
Je vais dire,
je pense que
le SRE
vous prépare
très bien
pour l'entrepreneurship.
Si vous allez
trouver une compagnie,
il y a
un besoin
d'avoir un sens de responsabilité
et d'obtenir l'obtenir
sur tout le monde
qui vous fait un bon founder.
Donc,
c'est une partie de vous
tous les jours
quand vous êtes en SRE
pour ressentir l'obtenir
sur le service
que vous avez
été en train de prendre
et vous vous mettre
dans la bonne mindset.
Et donc,
je me encourage
des SREs
pour commencer leurs propres compagnies.
Juste pour réacte
à quelque chose
que Carla a dit avant,
Carla a dit
que les petits équipes
sont une bonne chose
et aussi que les équipes
doivent avoir
une ownership
sur quelque chose.
Je pense que c'est très correct
parce que l'une des
antipartiens
que j'ai vu
dans quelques places
est
des SREs
qui tentent
de sortir
comme
des équipes permanentes
sans
aucune ownership
sur
les services.
Et c'est un endroit
qui est un peu bizarre pour les gens.
Je pense qu'il y a
un rôlegenachte
à la exhortation
des consultés
qui partagent
le públic.
Mais quand
l'onunge
le projet
de prendre
des suffisheurs
sur lesостes
si il pourquoi
on ramène
toutes ces
plantes
par
d'autres équipes pour faire.
Il va arriver à un sort de formule de pure or.
Et en fait, à Google, si vous êtes un service pure or, comme c'est une rédition de production,
vous pourrez s'exprimer 3 à 6 mois en faisant du travail en entendant ce service,
en entendant sa architecture et comment ça s'adresse, les moyens qui peuvent être réimprimés,
et les instrumentations, et tout ça.
Peut-être standardiser le tooling et comment ça se passe.
C'est tout ce genre de choses.
Mais avec le tic-mocs pure que j'ai vu, vous allez juste arriver à des gens qui disent,
« Oui, oui, oui, oui, oui, oui. »
Et il y a un petit espace pour des engagements d'entrée.
C'est juste que j'ai fait le truc.
J'ai des monitoring.
C'est une bonne monitoring.
Qui sait ? Mais j'ai des.
Donc je suis bien.
Donc vous vous rendez avec une engagement assez chaleur,
donc pas le contexte d'entrée de la réaction d'entrée,
que je pense que c'est vraiment ce que je vais faire.
Je pense que cette réaction de production est particulièrement commune
dans les industries ou les organisations
qui ont déjà beaucoup de gens en train de faire des complotations.
Donc dans le gouvernement,
ou dans les industries financières,
ou dans les industries de santé,
ils ont déjà beaucoup de gens en train de faire des checklists
pour faire sure qu'ils sont complotés avec des choses différentes.
Et donc c'est facile pour le SRE ou le DevOps
ou d'autres types de rôles spécialisés
pour devenir un autre version de ça.
Ce que, comme Laura dit, n'est pas particulièrement utile.
Oui, il y a des différents types de risques.
Et si vous êtes déjà bon à un type,
c'est vraiment facile de essayer de faire un match de pattern,
l'envers de la règle de risques,
que ce soit la réliabilité ou la liabilité,
je pense, n'est pas même possible de faire ça.
OK, donc je pense que nous avons le temps pour quelques questions.
Puis on va râper.
Vous pensez que c'est plus important de avoir des essais individuels
ou de faire une part de la liabilité des médecins
comme tout le monde dans le org?
Donc je pense que si vous avez ces spécialistes,
est-ce que c'est la partie importante
ou vous voulez distribuer cette spécialité
par votre org?
Je pense que vous pouvez aussi dire que les deux.
Mais où vous allez commencer?
Je ne pense pas que c'est raisonnable
d'avoir tous les ingénieurs
avoir une liabilité de mindset
et d'understand le système d'aventure.
Surtout pour les gens de plus en plus,
c'est juste pas pratique
de pouvoir faire leur travail de corps
et tout ça.
Donc le spot de suite est en train de faire
une organisation large,
une organisation large.
Un peu de gens sortent d'un dev
qui pensent sur la liabilité
et d'understand et appeler
le processus de développement.
Et puis avoir une équipe séparée
qui s'en fasse vraiment
en pouvoir rencontrer le SLO
comme leur objectif primaire.
Ces deux travaillent ensemble
en pursant,
envers les deux,
en pursant le but de la liabilité
et le but de la nouvelle feature.
Les gens sur la devside
sont les ingénieurs de la liabilité
et sont des gens de la goldenité.
Quand je suis en search,
c'était Rob Stetz,
qui est incroyable.
Il a fait le travail de
la sécheresse
plus facile.
Il était comme le 5e beetle.
Il était un de nous en espérance.
Je pense que, en suivant
ce que Cody a dit,
le meilleur
que vous pouvez faire
est de avoir
un énorme nombre,
pas un énorme nombre,
même un handful
de
très compétents
SREs
et de leur faire
leur organisation
sortie de haphazard.
Un peu de places
que j'ai consultées
pour essayer,
parce que
quelqu'un leur dit qu'ils ont besoin de SREs
et qu'ils vont aller
avoir un peu de gens
avec un SRE job title.
Et
mettre leur dans
une variété de
places déconnectées
au lieu de leur organisation.
Et ça ne marche pas
parce que les n'ont pas de
tractions
et que les n'ont pas
de progrès.
Donc je pense
que si vous allez avoir un truc
que vous appelez à un SRE,
il faut être très
dense avec les gens
qui ont le bon mindset
et le bon
niveau de l'autorité
dans l'organisation.
Et puis, séparément,
j'ai agréé que
les gens qui ont été
scadrés
dans l'organisation
sont SREs,
et en fait,
dans ma carrière à Google,
j'ai
mis
sur le côté official
de la devside
et sur le côté SRE,
probablement 4 ou 5 fois
et bouchons en haut et en haut
parce que je n'ai jamais
aimé
l'idée que la ligne
était là.
Donc,
d'ailleurs,
les gens
sur le côté
de la devside
en faisant des choses SREs
sont aussi très utiles.
Et le plus important
c'est la
single embedded SRE
qui se termine
dans la personne
de l'op
et qui
termine
le personne
qui a toujours été
appelé
pour faire
quelque chose
qui est sorti
en production
en fait
dans les réglages
ou dans les changements
ou dans la formule
et la promesse.
Je veux dire,
le problème avec ça est
que vous vous en faites
toutes les toilettes,
toutes les travail de la
et c'est
une des choses que
je pense que
Carla m'a mentionnée
que c'est très difficile
d'avoir des tractions
dans cette ligne.
Je pense que c'est parce que
vous vous en faites
toutes les housekeeping.
Je pense que c'est aussi très
difficile pour
la growth de career
pour les SREs
qui se terminent
dans les teams
d'embaîtres
parce qu'ils ont
un remitt
pour les autres
de leur team
et donc ils ne sont
nécessairement
de travailler avec
les projets
plus grands.
C'est très souvent
que nous nous en voici
des ladders de career
où vous êtes
nécessaires de
montrer cette leadership
et travailler avec
des gens.
Et ça serait
très difficile
dans ces rôles
disconnectés.
Je pense que
c'est très difficile
pour les gens
d'avoir des tractions
dans leur career
individuel
et d'être
impactifs.
Une question finale
est que vous pensez
que vous êtes
en train de
faire la whole
internet
et d'être plus reliant.
Qu'est-ce que le problème?
Est-ce que c'est un problème?
Imaginez-vous,
je vais vous donner
10 secondes
pour résoudre
ce problème.
Pourquoi ne nous ne
ne sommes pas
tout le monde
en train de travailler
tout le temps?
Ça peut être
un type controversé
mais en large
l'internet est
assez reliant.
Et donc,
la plupart des services web
sont pas
tous, mais
je pense que la histoire est
assez bonne.
Et la histoire est certainement
beaucoup plus meilleure
que l'année dernière.
Je n'ai pas des statistiques
sur ce, mais je
j'ai très bien su
que la cause
des dégâts
de la destruction
pour les gens
est probablement leur
propre internet
de la dernière
top.
Et ce n'est pas
pour dire que nous
pouvons rester
sur nos lourds
et dire que
la software est
bonne maintenant
parce que
c'est bien
parce que la plupart des
gens sont
travaillés
très bien
et très reliant.
Je pense que
dans les meilleurs
places
où il n'y a pas
des testeries,
il y a toujours
un scatter
de dégâts
qui sont
très
reliant
en termes de mindset.
Donc même si vous n'avez pas
un carburant
organisé
pour le SRE,
il y a des gens
qui travaillent.
La autre chose,
c'est le public cloud
et aussi, je pense,
services comme
Bricell
et Fly.io
et tout ces
prébaked
environnements.
Ces choses,
je pense,
font de la reliant
en grand nombre.
Et donc,
les choses,
comme la base,
qui vous permettent de
faire des services statiques,
il y a beaucoup de
tooling,
c'est vraiment, vraiment,
vraiment aidant.
Ce n'est pas le grand extent
de la histoire de ce que vous avez besoin,
mais je pense que
c'est un peu plus grand
que 20 ans
d'anime,
quand nous étions
en train de faire des pizza-boxes
en Irak,
dans un seul endroit,
les possibilités
pour
ce que vous pouvez faire
en réalité,
ces jours,
sont énormes.
Je dirais,
en général,
validation est trop
difficile.
Et c'est
à travers le spectrum,
je pense,
à l'interprète
que les tests de la machine
sont très moutures,
et puis,
les tests de l'intégration,
moins moutures,
et puis,
les tests de la monitoring,
les choses comme ce,
moins moutures.
Il y a
juste un peu de
overhead
pour les établir ces tools.
Et donc,
relativement
à l'âme de temps,
vous avez
développé
un nouveau product
ou un nouveau futur,
et le bon validation
en place
est assez
difficile.
Et un
peu d'espoir,
des petites
entreprises ne sont pas
le temps
de
construire tout ce
truc.
Si vous n'êtes pas
un développeur,
si vous êtes,
une utilité électrique,
vous devez
mettre les systèmes
ensemble de six vendeurs,
ou 10 vendeurs
différents,
pour avoir un
phare solitaire,
par exemple.
En savoir
que vous avez
mis tous les pieces
ensemble correctement,
c'est
très,
très difficile.
J'espère que
dans les next
quelques décennies,
vous vous réveillez
beaucoup plus d'améliorations
et des tools
comme ça,
qui vous donnent
de la réponse correcte
que vous avez connecté
les choses correctement.
Ce serait
mon rêve
pour le futur.
Je me suis rendu
un peu similaire
pour Laura,
qui est
comme,
les choses sont
très bonnes.
Et aussi,
pour
aller vers
la histoire de Cody,
pour
travailler
à un start-up
un peu de
penis.
Series d'opportunités de
microbrune
pour te protéger d'une nouvelle
robotics riglerde et fatigués.
C'est de vrai que c'est le plus afecté
sur le leurf de la communauté internet.
WOR enzymes en statements et certes,
speaks de ce Hebrew bapt mec.
Depuis et mañana au Canada,
leselled,
tasteaux tous les volunteer
des
parece
et que la sécurité, particulièrement sur la sécurité des données et la confidentialité,
je pense que la histoire est très très faite.
C'est quelque part où nous ne nous sommes pas en train de voir d'un compromis systémique.
Donc, on peut être convainc avec cela.
Peut-être que le futur de SRE est la sécurité.
On peut ajouter un S pour SRE.
Ça devrait le faire.
Merci beaucoup pour nous rejoindre aujourd'hui.
C'était une conversation incite, fantastique et incroyable.
Je suis très heureux de vous être ici aujourd'hui.
Je pense que je vais vous donner une dernière chose.
Vous avez des pensées en partage.
Qu'est-ce que la première piece d'advice que vous donneriez
aux équipes de face aux challenges de la rédaction?
La première piece d'advice que je donnerais aux équipes de face aux challenges de la rédaction
serait ne pas faire le premier chose qui tombe dans votre tête
pour fixer le problème.
Parce que très souvent,
ce sort de rédaction initiale, la réaction de la rédaction,
est quelque chose qui peut être
un peu plus sur le problème
ou faire le poids au fil des roues
contre le sol.
Dépêchez-vous,
prenez un moment
et analysez le problème
et comprenez comment cela fonctionne
comme un système.
Et comprenez comment vous pouvez l'intervenir
pour improving cela.
Peut-être que vous faites des médecins de fixation.
Mais je pense que beaucoup de les équipes
avec les problèmes de la rédaction
sont là parce qu'il y a eu
beaucoup de quarters
d'ignorer le problème
ou de pêper le problème
avec des hautes de courte
plutôt que de faire
peut-être que ce n'est pas un renouvel
rédesigné,
peut-être que c'est comme un
petit changement.
Je vais vous donner un exemple ici.
Une fois que je travaillais avec la compagnie,
cela se préoccupe
d'une chose qui
nécessite les end-users
pour réactuer leur client.
Et parfois cela cause des problèmes.
Et la raison qui a causé des problèmes
était que quand un client
réactuera,
il avait besoin d'un appel
assez expensif
pour s'assurer un peu de données.
Et ce appel était de la rédaction.
Et donc parfois,
on le dit aux clients pour réactuer,
mais ils nous ont réactué
quand ils ont essayé de réactuer.
Maintenant, il a été turné
que c'était un rédaction
sur les mécanismes
qui ont nécessité des clients
pour réactuer aussi.
Mais ce n'était pas synché
avec l'autre rédaction.
Donc, un très simple changement
systémique
était de aligner
les deux limites de la réaction.
Et ne pas demander aux clients
de réactuer si ils n'ont pas
la permission
de faire le réboot
ou le PC call.
Et c'était un changement
assez rapide
qui a fait la operation safe.
Donc,
plutôt que de se déterner
en essayant de réactuer
ces limites de la réaction,
en réalignant les deux limites de la réaction
fixer le problème
et fixer les deux pour les bons.
Donc, il y a des choses comme ça.
n'oubliez pas de faire ce que vous avez fait
avant de faire
et de mettre la main à la route
et de vraiment
penser en profondeur
sur les problèmes de la réaction.
Ce que je voudrais dire
c'est que
on commence avec la culture.
Normalement,
il y a plein de gens
qui sont en train de se déterner.
C'est parce que
quelques gens
ne sont pas en train de
faire la réaction
pour la priorité.
Ils ne le voient pas
en partage de leur travail.
Ils le voient peut-être
quelqu'un d'autre
ou peut-être
une priorité plus bas
que de la réaction.
Et vous pouvez construire
un sens de personnalité
entre chaque personne
sur le team
et les goals de la réliabilité
si elles sont des SOOs
ou juste
quelques outages
qui vont s'en prendre
rapidement.
Mes pensées sur ce
sont d'essayer
extrêmement petit.
Petit que vous pensez
faire sens
avec une interaction user
ou une pièce
de votre flow de systèmes
et de travailler de la route
de là-bas.
Parce que
la chose que j'ai vu
les plus souvent
dans les organisations
est que tout le monde
se débrouille en disant
que les choses ne sont pas
relègées
mais il y a trop de choses.
Et donc
avoir un focus
de
nous allons juste faire
la page de la maison
dans les
500 secondes
99 % de l'heure.
C'est notre goal.
Nous ne faisons rien d'autre
maintenant.
Et puis, quand vous avez
ce maire, vous avez appris
un peu de choses
sur comment votre système
fonctionne
et vous pouvez
bouger au prochain.
Merci beaucoup
pour nous rejoindre.
Je veux donner
une grande merci
à nos guest,
tous les formes
de Google SREs,
Carla Geisser,
Lair Aleph,
Laura Noland,
Stanza
et Cody Smith
de Camus Energy.
Je veux aussi
exprimer une grande
merci à mon co-host
pour cet épisode,
Steve McGee.
Je veux aussi
donner un shout-out
à tous ceux
derrière la scène
qui ont fait
cette année
de la podcast possible.
Merci beaucoup
pour tous les
workpieces
qui ont été
faits
derrière la scène.
Je veux aussi
exprimer
une autre merci
pour tous les
guest-co-hosts
de cette année.
Pam, Chris et Rita.
Merci
beaucoup
pour vous
ici.
Merci
pour votre
temps.
Je suis
immensement
remercie
pour tous ceux
qui ont contribué
pour faire cette année.
Merci.
Merci beaucoup.
Merci, tout le monde.
Merci, c'était bien.
Merci.
Merci, à bientôt.
Bye-bye.
...
Episode suivant:
Les infos glanées
GoogleSREProdcast
SRE Prodcast brings Google's experience with Site Reliability Engineering together with special guests and exciting topics to discuss the present and future of reliable production engineering!
Tags
SRE, a Basis of Influence with Amy Tobey & Vlad Ukis