Incident Response with Sarah Butt and Vrai Stacey

Durée: 43m53s

Date de sortie: 09/10/2024

Sarah Butt (Principal Engineer, Centralized Incident Response, Salesforce) and Vrai Stacey (Staff Software Engineer, Google) join hosts Steve McGhee and Jordan Greenberg to dive into incident response—particularly tooling and software for reliability incidents. Tune in for an in-depth discussion on topics such as the importance of communication and collaboration during incidents, and the role of tooling in supporting incident response processes. Sarah and Vrai also share personal takeaways from incidents they have experienced.

Welcome to Season 3 of the broadcast, Google's podcast about site reliability engineering and
production software.
I'm your host, Steve McGee.
This season we're going to focus on designing and building software necessary.
Our guests come from a variety of roles both inside and outside of Google.
Happy listening and remember, hope is not a strategy.
Hey everyone, welcome back to Season 3 of the broadcast on Google.
This week I'm joined again by our co-host Jordan.
Hey.
I'm Steve McGee and we have two guests this week.
We have Sarah and Vray.
Why don't you guys introduce yourselves?
Absolutely. My name is Sarah Bhatt.
I work with Salesforce with a team called Centralized Internet Response,
which is part of Salesforce's reliability engineering organization.
And I'm very stacey.
I work in Google's SRE.
I'll learn our internal institute response tool.
Awesome.
Awesome.
So this episode we're going to focus on incident response.
And specifically about the tooling and the software that teams might want to use
or might realize they don't have and they need to build themselves.
But first off, what do we mean by an incident?
There can be lots of things.
Basically the stuff that goes wrong and everyone has to go, wait, what was that?
Sometimes there's security incidents and they can be a little bit different from reliability incidents.
We're going to focus today on reliability.
But Jordan had an interesting one that I think you kind of helped set the stage.
Let's hear your favorite one, Jordan.
Yeah.
So many years ago at Google before I joined the SRE TPM team,
I worked on the support team and we got a funny ticket from an SRE that said,
we needed to get additional Wi-Fi access points installed in the bathrooms
because the old building was not allowing the data to flow through the walls
and you may be missed a page here or there.
Just to meet the SLA, we have to get better Wi-Fi.
That counts too.
Which may have been me if it was London.
Yes.
Because we had that exact same problem when we moved into our new building.
And you had to find a secondary before you went to use the facilities,
which was suboptimal.
Wow.
Was that 6 p.s. free?
6 p.s.
Yes.
So our King's Cross Campus.
I was there too.
I remember that actually.
I remember moving into that office and there were some issues.

And so yeah, this is actually a really great funny example because like,
who saw that one coming?
Was there a playbook for this?
Probably not, right?
This is some complexity has arisen through outside mechanisms that we didn't see happening.
So that's awesome.
It goes to show how important the process is when it comes to communicating
and talking with your team when having an incident.
So why do you need to get paged in the bathroom?
What is incident response and why did you need Wi-Fi to be the person who fixed whatever was going on that day?
So at the time, I was on call for some of Google's network infrastructure.
Predominantly, the part that connects our Google's internal systems to the internet.
So it's kind of critical what we would do, how we do business.
And as you mentioned, the building, we just moved into it, terrible cell phone coverage, terrible Wi-Fi.
And we had a three minute SLO.
So we were expected having been paged to be in front of a computer fixing a problem within three minutes.
That meant if you needed to go and spend a penny, you basically needed cover if you couldn't get your coverage.
Otherwise, you could be incurring ad serving could be down.
YouTube could be down and you would have no idea until you got back into somewhere where your phone could shout at you again.
Yeah, that's an important point.
It implies that you were the one on call.
It wasn't like drop a message into a common thing.
It was like single person gets single message.
Is this common, do you think?
Or do people start out this way?
Or is this something that evolves over time?
Maybe you guys can tell us about your picture of how these systems tend to work out in the world and what systems are required to make this work right.
I think the single team, single person rotation, that's something that I've definitely encountered, especially I think depending on size of company or resourcing or how critical it was.
One of the things that I've tried to encourage as I've led teams or set up rotations is not having a single point of failure in terms of just one person getting paged.
Now, that might be, we have a person that gets paged and something happens and that rolls through them for some reason.
And then two minutes later, the next person is getting paged or it might be two people get paged in parallel.
And that's expensive to staff.
Like I'll be the first person to say that's expensive to staff.
And some of the things that I've had to talk through with people is like, can you partner, if you are an SRE team that partners with service owning teams as well, can you all partner together to share the page?
Can you partner with similar teams where even if you don't have the deep expertise, both teams could do troubleshooting on each other's service just to get more people in rotation?
Because I think there's a very human cost of rotation that comes into the need to also provide robust coverage.
I'm very lucky, I would say on the team that I'm on right now, that we do, we always have a primary and a deputy.
And they're both getting paged for every incident that we're taking and they're always on and supporting.
To tie that back to the tooling, though, you also need tooling that allows you to do that, whether that's a quick override or you need the ability to have paging in parallel.
So I think figuring out the way to do that is equally important because missing a page feels really terrible.
I've always, when I've been on call, I felt very responsible for the system that I was on call for.
And there was nothing worse than feeling like I missed a page and let my team down.
Totally.
I mean, absolutely on that front.
I did have a secondary just to be clear, and that was the person I would have handed off to.
But again, it's not so much that I will have to pull through and it will be fine.
It is.
There's a kind of personal pride if you are on call about making sure that you are on call and you're ready, ready to go, ready to leap interaction and when required.
But yeah, absolutely agree also on the tooling.
You really need tooling that will fit your needs and your rotation, not having to build your rotation around suboptimal tooling,
which they may not allow parallel paging or proper pull throughs and whatnot.
So you get the page, you have this tool that lets you, you know, someone take over or make sure that you don't get paged while you're on vacation.
So I can see how tooling works there and that arises through, you know, kind of figuring it out.
We have a team of people that have certain demands because they're actual humans and they're not just like response robots.
What comes after that?
So once you get the page, you got to do some stuff, right?
And same thing, like maybe it's not just you, maybe you're working with other, maybe you're actually collaborating.
Can you imagine it?
Like, can you tell us a few more things that come up in terms of like, what have teams or companies developed in order to assist that process of the like, right after you get paged, then what?
Do you just do it in the dark like in your terminal?
And that's it.
Like all you really need is like a unique system or is there more to it than that?
I think the way that people define incident response tooling is always really interesting to me because there's several lanes of it and there is sort of the traditional lane, which is we use whatever,
chat platform or voice platform, paging platform, like, there's sort of a foundational level there.
I think we're seeing an industry a new level of tooling as well that is like specific incident response, whether that's bots and automation or tools that help in the post incident review.
But we're seeing that as like an actual market segment now where vendors are coming into that.
And I think internally teams are building that as well, depending on the size of company and the resources they have.
But I always encourage people that like your incident response tooling is much broader than you think it is.
So it's also your monitoring and your observability and the dashboards that you have access to.
And how do you interface with your customer support folks?
So some of the tooling that I've seen built is things that really surfaces information that responders need to make those quick triage decisions.
So it's like, if you have a failover and you need to know if your standby site is ready or your standby AZ or whatever it is, is ready, surfacing that quickly to responders.
If you need to know if you're getting customer cases and they're in certain regions or not surfacing that to responders and being able to look at something like a CUJ, like a critical user journey.
I think all of those are also tools in your system.
And as we learned earlier, Wi-Fi is a tool in your system.
Like these system boundaries are much fuzzier than we think they are.
There's a particular issue, certainly for companies like Google, where we have quite high levels of vertical integration.
So being on call for say, the network means that you, in theory, you could something you could be on call for, cause fail.
Well, that would remove your ability to use a bunch of your tooling, depending on how deep the stack was.
So to go back to collaboration, nowadays, working on the tooling I do, we tend to collaborate using Google Chat, Google's version of Slack effectively.
Chat ops being the big thing.
Back in the day, you couldn't rely on chats being around because we were on call for something that sat below it.
So we would actually use IRC.
Do you remember that?
Very basic, minimal stack.
But yeah, the first thing you do is look at the problem, triage it and just start pulling in people.
I mean, you're part of a team and we always adopted the view that if the on-call and need your help, you drop what you're doing and help the on-caller.
In the days when everyone was in the office, we could generally see by looking at the team how difficult their problems were by the number of SREs crowded around a single monitor.

There'd be a four, eight SREs issue.
Oh wow.
It's like a different measure.
You have the five nines, but you also have the eight SREs.
You're starting to set severity based on the number of SREs.
Yes.
It's different in the matrix.
You've got your intensity that you need, your urgency and your priority and then the number of SREs around the monitor.
Exactly.
Exactly.
How many does it take to change that light bulb?
I think it might be a log scale.
Yeah, exactly.
So I was thinking about incident communication, how you communicate to your teammates.
Like, hey, I'm working on this.
This is the current update.
Has anyone had experience also having to do the final layer of that, which is end user communication?
What do you tell the communications person at your company?
For Ray, it's probably Googlers who need to know.
Mais je me demande si vous avez l'expérience de dire que, hey, nos services sont en train de faire des messages.
Et que vous avez à considérer, que l'information est en train de se séparer, de se séparer.
Allez-y.
Donc, oui, dans mon impact, dans les deux pièces de Google, en fonction des trafics,
en fonction des données, les clients sont en train de se séparer directement.
Évidemment, il y a une dépendance transitive,
surtout dans les choses qui ont un outage qui peut affecter des grandes chansons du monde,
si vous ne vous interviendrez pas vraiment.
Mais dans ces jours, avec la cloud, qui est une grande partie de notre business,
nous devons être conscients que ce qui peut être un outage small et internal
peut avoir des impacts qui ne sont pas en train de se dépasser.
En fait, nous devons être conscients que ce qui peut être un outage,












C'est intéressant de vous entendre, parce que ça fait partie de ce que j'ai vu à d'autres entreprises.
Donc, quand j'ai commencé à faire le management incident,
j'ai travaillé sur une grande plateforme d'écon.
Donc, ça a évidemment eu des utilisateurs externes,
et beaucoup d'entre eux, que ce soit les agents de soutien,
ou les managers de succès qui étaient très intéressés à ce qui se passait avec les incidents.
Comme je viens de faire des services pour d'autres entreprises,
j'ai eu des rapports qui étaient très similaires,
qui étaient des laitiers de communication external.
Et l'une des choses que j'ai travaillé sur récentement,
c'est comment nous nous proposons de la communication suffisante
et de la transparence pour les services de services,
pour nos teams qui équipent nos staffs et nos clients,
en même temps, en gardant ce que nous appelons,
l'airtime de la brige, pour l'église et l'effort de la mitigation.
Et donc, il y a beaucoup de choses que nous avons essayées de faire,
par rapport auxquelles le tourisme s'est réduit,
mais aussi de créer des canaux parallèles et des séances de communication.
Donc, peut-on avoir la brige de voix
qui est concernée par la mitigation de l'ingénier,
parce que c'est là qu'on a besoin de la plus grande banque
de communication pour arriver à ce moment,
et peut-on avoir une chaîne séparée,
qui parle de notre soutien au client,
ou, en ce cas, nous appelons le CIC,
pour leur donner des informations.
Et en quelque cas, si nous devons avoir besoin de ça,
comment nous le replierons ?
Mais comment nous créons ce système adapté
avec plusieurs canaux de communication
qui permettent de faire attention ?
C'est vraiment intéressant.
C'est quelque chose que j'ai vu,
que je me sens comme un subtexte
dans ce que tu disais,
c'est qu'il y a le incident,
fixer le bloc de la brige,
et puis, on a un bunch de choses à l'heure.
Mais ensuite, on doit aller en bas,
et être comme, chaque fois que nous essayons de fixer le bloc,
nous l'étendons, parce que nous avons un problème de la méda.
Et c'est la...
Il y a la tournage,
ou la faute de tournage,
ou que nous n'avons pas pu réaliser que nous avons besoin de tournage,
mais c'est des choses systématiques,
que c'est imperfecte,
ou peut-être que nous nous adaptons,
parce que notre équipe a plus de soutien,
ou nous avons supporté plus de services
dans les derniers 6 mois,
ou autre chose.
Donc, je vois ça,
quand on fait des retrospectives,
et surtout si tu fais,
plus que juste un incident,
mais en faisant un retrospective
sur beaucoup de incidents,
tu as vu les équipes
faire ce analyses beaucoup ?
Est-ce que ça se passe ?
Est-ce que les gens
font un guess sur ce que nous devons construire
ou on va faire un test
ou est-ce que c'est plus explicit ?
On va faire un meta-analyses
dans les derniers 6 mois,
12 mois, 18 mois,
sur 25 différents équipes,
et on va voir ce que l'on a mis,
et on va voir comment les équipes
vont, quand elles tentent de faire
ce système de réponse,
mieux.
C'est très difficile
quand tu as des gens
qui tentent de fixer
les systèmes et les processus,
parce qu'ils tentent de se faire
sur leur propre use-case,
ce qui est bien si tu es le seul équipe
dans la société qui se fait
faire un stack.
Mais ça devient très difficile
quand tu tentes de faire quelque chose
qui fonctionne pour un équipe
qui est le plus haut niveau de la stack
après quelqu'un qui est en train
de faire ce très grand producteur.
Je suis certain que les spectacles
de postmortem, comme on les appelle
sur Google, sont un facteur
critique pour cela, comme le mété
de postmortem,
où tu prends l'outil de beaucoup de postmortem,
et tu vas essayer de trouver ces facteurs
communs que tu peux identifier
et puis streamer.
Et c'est vraiment comment on fait
pour que tu puisses faire un bunch
de plan de roadmap pour les
internaux.
Qu'est-ce que nous pouvons fixer
ou improvement que nous allons avoir
le plus grand impact?
Auxqu'à la plupart des gens
ou juste les zones
qui sont causées, les clients,
les entreprises, tout ça,
il y a un grand nombre de paix
qu'on doit avoir au top.
Dois-tu ever terminer
dans des situations où les groupes
ont des besoins d'opposés
pour que les clients
puissent s'occuper de ces besoins?
Oui, tout le temps.
Les deux sont de véritables besoin
et de procédés.
D'abord, je pense que tu dois
s'exprimer, tu ne peux pas
acheter tous les problèmes optimaux.
Même si tu as un temps
infinitaire et une ressource
plus bas, plus bas,
des produits complètement discrets
pour les gens,
tu devrais juste terminer avec ce
message que personne ne peut comprendre
et que personne ne peut utiliser optimement.
Pour nous,
nous nous focusons
sur le issue de l'éthique 2020.
Nous nous focusons sur le 80%.
Nous pouvons avoir 80%
des colliers et
des gens qui ont des reviews de la
responsabilité de la santé,
dans un bon endroit,
avec les produits corporeaux.
C'est fantastique, mais le reste de 20%
est de l'expensabilité et de la customisation
et de la façon dont les gens peuvent,
où ils ont des cas de business
légitimaux, qui sont différents de la norme,
et qui sont en train de soutenir.
Mais à ce moment, nous devons
déléger cette fonctionnalité
ou cet état de partenariat
pour l'expérience que tu vas
faire, que tu as à voir,
et que ça devrait être parfait pour toi,
j'espère. Je ne vois pas
d'autre façon, car
dans une grande compagnie,
tu vas avoir des points de vue
et des besoins d'opposé
que l'un des produits monolithiques
n'est pas allé faire le travail.
C'est l'expérience de Echo
que j'ai eu à l'employeur précédent,
où je faisais des vendeurs,
et nous avons un cas de utilisation très spécifique.
Et je savais que ils ne pouvaient pas
pouvoir construire exactement pour nous,
car ça ne m'a pas fait sens pour les restes de leurs clients.
Et je me rappelle en en parler, et je me dis
que tout ce que je veux, est de me donner
le meilleur API possible.
Si tu me donnes un API,
je vais avoir mes ingénieurs
pour construire l'autre pièce.
Je l'ai appelé à un bruit à la fois,
je me disais que je devais juste donner le bruit
pour que nous puissions rencontrer le bruit en partie.
Et je pense que
quand tu entres
dans un bâtiment versus un bâtiment,
les considérations de gens s'assument
que c'est un bâtiment binary.
On va either construire ou on va construire.
Et il y a souvent des cas où tu vas
faire les deux, particulièrement
dans les plus grandes et plus complexes
et des plus grandes implementations.
Et donc, les gens à la pointe où ils sont
contents de faire leur minds
sur ce que nous allons construire
et de construire nos besoins sur le bâtiment
versus d'assumer que c'est un bâtiment
parfaitement pour nous.
Oui, souvent
les entreprises s'assument
quelles sont les systèmes que nous devons
utiliser pour la réponse instantanée.
Et mon réponse est,
je ne sais pas,
il y a beaucoup.
Il y a beaucoup de choses.

Oui, mais ça me rappelle
un peu l'unique
model d'utilité.
Je dois dire,
et Cat et Grep, ils travaillent tous ensemble.
Il n'y a pas
juste un, je ne veux pas
être unique, entre.
Il y a un bunch de choses
que je dois à des fois différents.
Et donc, ce n'est pas clair que tu vas avoir
un bâtiment pour les rouler.
Et aussi, le bâtiment que tu as besoin,
tu ne peux pas même
savoir que tu as besoin encore
jusqu'à un jour difficile.
Il y a un bâtiment de flippe que je voulais ajouter,
parce que je pense que c'est
facile quand tu es
dans une petite compagnie et peut-être que tu n'as pas de budget
ou que tu es dans une compagnie qui est très consciente
de des choses de sécurité et des incidents,
et qu'ils ne veulent pas toucher le bâtiment.
Je parle avec des gens qui sont très discrétistes,
qui sont comme, je vois des bons bâtiments
ou d'autres personnes ont des ressources
pour construire ces bâtiments, et nous ne sommes pas
en train de le faire. Et l'une des choses que je
dirais aux gens c'est que
tu n'as pas des bâtiments pour les rouler,
je suis amusée
aux grandes entreprises
avec une réponse incroyable
qui ont fait ça avec Google Docs
ou Google Sheets, ou Google Slack
et je pense que, si il y a quelqu'un
qui ne répond pas
parce que je ne peux pas avoir budget
ou je n'ai pas une équipe qui peut le construire,
tu seras amusée de ce que tu peux faire
avec Google Docs, parce que c'est pour ça
que le bâtiment s'adresse à ta procédure
ce n'est pas juste
si tu ne peux pas acheter un bâtiment, tu ne peux pas avoir
une réponse bonne. Donc peut-être que c'est un peu
un peu de hot take, mais en cas que
tout le monde soit en position, parce que je suis là
avant et j'ai été bombé, et ça m'a aidé
à reconnaître les bâtiments non traditionnels
ou les bâtiments fondamentaux, mais un bâtiment
est un bon truc.
Si rien d'autre, les SREs sont très
scrabbles.
Donc, quand nous avons les bâtiments flashiers
ou les bâtiments d'accident,
on a des bâtiments de la manière
d'utiliser les sérés de la sévélité,
comment les SREs,
ce qui est le impact, etc.
Où est le travail
en fait, probablement dans la chambre
de la chambre, probablement dans l'IRC,
probablement dans le Google Doc, et puis
ne pas le mettre en place dans la chose flashier.
Je vous en prie complètement,
en utilisant ce que vous avez
et en construisant le bon processus
pour s'éteindre toute cette information
proprement.
Je ne vais jamais dire
que quelqu'un qui a
des rôles de la paix
pour acheter des bâtiments
ou avoir des ressources
pour les développer, je ne vais jamais vous dire
que les choses ne sont pas plus
plus compliquées, elles n'ont pas
plus d'incidents, plus de complexe,
mais je me souviens
que je me souviens aussi de ne pas
mettre en place des choses pour ne pas
acheter un bâtiment.
C'est un bâtiment
qui m'a aidé, c'est un bâtiment
qui est très beau, mais vous n'avez pas besoin
d'avoir un processus de management
d'absence.
Le processus est le keyword, les bâtiments
peuvent assister à un processus
et ça peut faire le plus facile,
il peut enlever beaucoup de travail,
mais les bâtiments peuvent vous donner
un processus de travail, vous avez le meilleur
pour le monde, si vous ne les utilisez
correctement, votre réponse à l'institut ne sera pas
pas bonne.
Exactement.
Juste pour vous remercier un peu
quand Steve a mentionné l'approche unique
de l'unique,
je vous ai mis un peu de caution
pour cela, c'est effectivement ce que Google
a utilisé pendant beaucoup de temps,
une série de components
qui ont été boltés ensemble
en temps. Si vous l'avez
compris, ils étaient bien,
le problème était que ça allait prendre
des mois pour entraîner les gens, pour
utiliser notre réponse en cours.
Oui.
Et je pense que le truc est
que si vous avez des bâtiments
ou des bâtiments,
ou que vous avez utilisé une combination
d'une entreprise,
vous avez besoin d'un truc qui est
assez fort pour soutenir votre processus,
mais pas de la chose que
seulement la haine de votre personne
peut utiliser le truc correctement,
car puis vous vous avez l'impression
d'accident ou de miséuse de ça.
Et puis le processus devient un détriment
pour l'instant.
En parlant de
des outils amusants,
ce n'est pas un podcast si on ne m'a pas mentionné
l'A.I., mais on ne m'a pas mentionné
en général.
On a eu l'instant de résoluer
l'instant de réponse avec l'A.I.
Mais non,
sinon,
je ne serais pas travaillé en réponse instantanée.
L'A.I. est un truc
comme tout autre, un truc qui fait
un grand progress.
Et je pense que ça peut aider à
émettre un peu de
l'étoile de la salle de
capturation, de la summarisation,
de la catégorisation.
C'est bien possible.
Ça peut aussi aider avec un simple
automatique, bien sûr,
mais ce n'est pas créatif,
au moins pas au moment.
Et jusqu'à ce point,
vous allez être entrés comme
votre compagnie de l'assistance
qui fait tout votre monnaie
pour un système qui peut
faire les choses plus mal
sans l'assistance humaine.
Je pense que nous sommes sur un
chemin où, bien sûr, nous allons
faire un point d'A.I. et peut-être
être le mécanisme predominant
mais je pense que nous sommes
quelque distance de l'affaire
sans une évidence radicale.
Un truc pour les humains dans le salle
et pas les A.I. est que
pour un moment de hôte-tête, je me suis
inquiétant si les deux vous pourriez
définir le terme SEV-1 pour moi.
Vérifiquement et avec aucun ambiguït.
Et le meilleur part
de ce truc est que Brice
me regarde bien, parce que Google
n'utilise pas le phrase SEV-1,
même si tout le reste de l'industrie
fait ça. Qu'est-ce que ça veut dire
pour une évidence de la priorité?
Qu'est-ce que la différence entre P1 et P2?
SEV-0, SEV-1. C'est
évidemment une question de trollage.
Mais pourquoi est-ce que c'est une question
difficile? C'est ma question réelle.
Je peux
refermer à
une présentation vraiment fantastique
sur ce qui s'est passé
l'année dernière sur
la sévélité incidentale, mais un
que je l'ai appris. C'est
disponible sur Youtube, donc je
j'ai hâte de vous
proposer de la sévélité.
Ils servent
votre company
comme
un indicateur
d'une idée du impact
dans la complexité
qui s'est installée dans un incident.
Donc, chaque company
a, je suis avec des companies
où nous avons été sous-zerre chaque week.
J'ai été avec des companies où
nous avons vu un SEV-1 une fois à la quatorze
et je n'ai jamais vu un SEV-0 ou je l'ai vu
pendant plusieurs années de la company.
Les entreprises ont été à leur place. Ils
signent certaines choses dans la company.
Mais je pense que c'est
intéressant de voir
un confort que nous essayons
de faire de la sévélité, et que les
humains ont besoin de
les catégoriser très bien.
Si je peux le mettre bien dans cette boxe, je
suis en train de parler de la situation
de la situation novel, et que c'est
détenu, ou je suis concerné
de cela. Mais je peux le mettre bien dans
cette boxe. Ils sont souvent
plus fousses. Donc, je
tend à me dire que
vous pouvez le dire, le SEV-1
pour tout le careur. Tout ce que je
dois savoir est, est-ce que vous avez besoin
de notre soutien pour le
incident? Ok, bien, on va
être là pour soutenir le incident, et on va
être là pour le faire. Et c'est un commandant
et tout ce qu'il faut faire.
Mais je pense que la sévélité est
très bien une constructe organisée.
C'est un modèle.
Toutes les modèles sont flottes, mais
les modèles sont utiles. C'est un
peu de la preuve, mais je pense que
c'est ce que je voudrais dire.
Ils sont utiles pour les modèles,
mais il y a beaucoup
d'autres modèles.
C'est un grand contact, je
encourage. M. a fait un fantastique
travail avec ça.
Oui, je vous avais dit que la sévélité
dépend de la
mesure que vous avez
mis en place.
Mais, en fait, c'est un
tool de communication. C'est un
moyen de dire que si c'est un
grand outage pour utiliser notre
terminology interne, ça signifie que
toutes les mains vont être à la
tête. Nous savons que c'est un impact
sur l'arrière.
Mais si c'est un outage
négligible, ça signifie que
les on-cours vont se faire.
Si quelqu'un est glancing, ils ne
ne vont pas se faire mal.
Mais il n'y a pas de
size 1,
parce qu'il n'y a pas de
size 1 pour l'organisation,
une équipe, une équipe.
Je l'ai entendu, c'est un bon
définition.
Comme Sarah a dit,
il peut être un pote-pony,
c'est un peu grand.
Mais, en tant que
personne, on comprend
ce qu'est le point d'une
certaine partie de ces niveaux.
En tant que
p1 ou c'est p1,
ça signifie que vous avez
une autorisation de boulot.
Vous êtes allowed
de mettre en place d'autres teams.
Si c'est un fsf2, vous n'êtes pas
allowed de payer à quelqu'un
d'autre.
C'est peut-être une bonne
nouvelle ou pas.
Mais le point est,
comment est-il le sens
d'assigner ces
numéros et les lettres?
À la suite de la
org, à votre propre team,
ou à ce que vous êtes
capable de faire,
ou de ne pas.
En tant que c'est bien
compris dans la team,
je pense que c'est important.
Et puis la prochaine phase
de ça, c'est,
vous savez que vous êtes
allowed de changer.
En tant que fsf1,
vous pouvez changer votre
mind.
Vous pouvez être,
en fait, c'est un fsf2.
On est bon.
Je me déconse que les teams
que j'ai consulté,
c'est quand c'était la dernière
fois que vous vous démodiez
un incident.
Et généralement,
ça ne se passe pas.
Si ça se fait fsf1,
c'est ça pour la vie,
ce qui est un bummer.
Parce que ça peut changer.
Vous pouvez comprendre ça mieux.
Je vous ai aussi essayé
de vous dire que je suis
coaché des gens
sur l'incident,
de l'encourage.
Ne vous en faites pas
trop mal sur ça
pendant l'incident.
Si vous vous avez
pris plus de quelques minutes,
vous faites ça
quand vous devriez m'intégrer.
Je ne vous ai pas dit que c'est
trop fort.
Mais c'est pas
le plus important
quand vous êtes en impact.
Donc je tend à dire
que la sévélité
servira l'incident.
Si la sévélité
servira les besoins,
nous avons les gens.
Même si nous devons
rétractiver,
dire qu'on va réagir
ou changer,
je suis bien avec ça.
Si ça signifie
que c'était là
qu'il s'est onderte surement

pon header,
que c'était là













えー.
What's habewries
spes
Light
It's a
mais on ne va pas le faire dans l'instant.
Oui, c'est certain.
Il y a un autre SRE CONTALK qui est fantastique.
Je pense que je serai remis à parler de ça et ne pas mentionner ce talk
pour les gens comme une ressource et c'est sur le futur de la ligne de tournage.
Il a été donné quelques années auparavant.
Il est disponible sur YouTube par John Alsba et Richard Cook.
Ils ont un insight incroyable dans un de ces grands takeaways
que j'ai continué à utiliser, c'est ce concept de automation de clumsy
qui augmente la workload à un moment de high workload
sur le responder et diminue la workload à la fin.
Le papier académique qui est arrivé a parlé de la people
en utilisant cette automation en avion.
Si vous avez besoin de beaucoup de choses
pendant la tournage et la landation qui a fait la tournage plus facile,
ce n'est pas une automation utile
car la landation est une fois de la workload de high cognitive.
Je dirais que ce talk est très important
pour vous, particulièrement si vous allez être en train de créer des outils
ou même avoir l'influence dans votre company
car cela donne beaucoup d'insights
pas seulement dans la tech industrie mais aussi dans les industries
qui ont été utilisées en these high cognitive workloads.
Ok.
Je pense qu'il y a beaucoup d'avion qui peut nous donner une réponse en général
parce que c'est une zone de industrie qui a eu beaucoup de temps
et de monnaie pour faire le plus possible possible.
Il y a un grand nombre de industries de tech qui peuvent apprendre
comment ils ont fait et comment ils répondent
et leur train de training humain.
Il faut savoir que tout le monde qui s'intervient
dans un incident, se sentent capable de parler en parlant
et que leur input sera en train de s'occuper
pour ne pas se faire avec juste une personne
en se battant dans le long terme.
Je sais beaucoup plus de choses sur le learnings et tout,
mais je peux aller plus loin que ce podcast Runtime.
Vous voulez faire un petit tour dans ça?
Vous parlez particulièrement de retrospectives
et de apprendre au système?
Je pense que beaucoup de les outils de l'instant
et de la discussion de processus
concentrent juste sur le stage de l'étranger.
Comment est-ce que ça s'est arrêté?
On peut arrêter la bledine
pour utiliser la terminology de la SRV.
Mais si vous êtes toujours solide dans le même problème
et dans le même outil,
oui, vous avez un processus très solide
par le bout du temps, vous avez l'automation pour vous aider.
Mais, en fait, un outil que vous ne l'avez pas appris
et que vous avez pu faire des études,
vous pouvez éviter un outil identique
et similaire en tant que futur,
il peut être costaud, mais il y a un signage positif.
Et je pense qu'on doit rébalancer
les investissements en général dans l'instant.
Et donc, ne pas avoir le même incident
qui se passe à nouveau.
Il y aura toujours de nouvelles et intéressantes
méthodes pour les systèmes.
En tant que les gens utilisent,
les gens en font des valeurs,
les bêtes de la blague,
ils vont toujours être là
pour détruire les plans de best-laid.
Mais, un investissement
en en déterminant que vous êtes
constamment en train de procéder,
constamment en train de procéder vos systèmes
et ne pas falloir faire le même cas,
deux fois,
est plus basé,
dans mon avis, que de tout en pêche
pour avoir le plus solide possible
du système de mitigation.
Je pense que l'un des choses,
parce que je l'ai
consulté avec des entreprises
qui ont dit,
nous n'avons pas le temps pour ça.
Tout est en feu, donc nous n'avons pas le temps
pour faire ça.
Et le rebut que j'ai fait,
et je dois croire John,
il me dit que c'est un incident
qui est l'investissement en train de procéder.
Vous avez déjà fait l'investissement.
Vous avez déjà fait l'investissement.
Vous avez déjà investi,
et ça a déjà impacté vos clients.
Si vous avez déjà fait l'investissement,
c'est plus important de
avoir l'insight de ça.
Et c'est un skill set qui
fait des études pour faire ça
et faire ça dans un moyen psychologiquement
et dans un moyen valable et généralisé.
Mais je vais vraiment
encourage des entreprises que c'est un investissement
plus important. L'un des choses
que j'ai vécu est que, comme un industriel,
nous nous sommes allés de MTR,
comme la single B-ALL in-DAL metric.
Il y a beaucoup plus de choses que nous pouvons parler de ça.
Et je vais, encore une fois,
dire que Courtney Nash a un travail d'amoeil
et que c'est important de réveiller ça.
Mais voir comment
les procédures et les outils
peuvent nous donner des insights beyond ça
dans un moyen qui est encore bas au niveau de la overhead
est vraiment un nouvel
en train d'intervenir
les procédures et les outils pour moi.
Donc, wow.
Ça me semble un peu fun
mais aussi terrifiant
d'être dans le club Pink Pony
de des issues critiques
qui affectent un service.
Alors, on va
prendre quelques minutes
si vous ne vous inquiétez pas
de dire que c'est
l'incident
de votre carrière
et d'autres sortes de take-aways
que vous voulez partager.
Ok, donc, en termes
de la polythéose, l'incident
a pris le temps de mettre tout le temps
dans vos jours
d'opération et denas
et de smartphone pour vous
de votre seafood
de appeared Monte

Et je vais vous éch end reservoir







..
Appearlasse
et port withstand
flags
des données, quand nous avons dépassé les systèmes, a été un peu enthousiastique et
juste passée et très très vite, nous avons juste puigné les plus vite. Les machines
étaient encore là, elles étaient encore connectées à la métro, mais rien ne
était en train de se passer. Et c'est une des zones où, à plus tard, les issues
de l'automation, parfois c'est plus de l'air de l'air de l'automation, en ce cas, il y a
un barrage de 1 line dans l'automation qui signifie, si tu as dit que tu as donné une liste
de machines pour s'en sortir, ça serait possible. Si tu as donné un liste entier,
ça serait comme un liste entier, tu dis, mais ça veut dire que je déterris tout. Et
ça a été par là et ça a remis ce grand choc de la flèche, ce qui est un
testament à ce que, en ce moment, on a des capacités, que vraiment, je pense que
seulement ceux qui se passent autour de nous constatent de nous vérifier la latitude,
ont réellement remarqué qu'il y avait un problème. Mais si on a donc
évoqué un peu de choses, on a dû réinstaller des chansons de la flèche
pour le faire sortir, ce qui était, je pense, une toute la team SRE. Je n'ai pas
oublié combien de SREs il y avait pour déterrir le problème. Mais ça m'a
détenu comme une chose que nous avons construite pour lui sauver le temps, et maintenant,
grâce à une petite erreur et le manque d'avoir un oversight humain,
un oversight humain, ça a causé plus de problèmes que l'on a jamais eu.
Mais c'est pourquoi vous avez des études, c'est pourquoi vous avez des
postmortemps et des spectacles. Ne vous avez pas un système qui a fait
des comportements quand vous passez à des listes, c'est juste de passer sur le
rampage de l'infrastructure. C'est clair maintenant, mais ça n'était pas
quand le tourisme était écrit.
Oui.
La change graduelle est importante.
La histoire est en SRE Workbook, c'est le X, c'est un étudiant de la case.
Ok, ça a été mentionné.
Vous êtes certainement allé parler de ça. C'est dans le livre.
Ou c'est dans l'un des livres. Comment vous, Sarah ?
Je ne sais pas que je peux vous donner un exemple précis, probablement parce que
mon employeur me préfère adhérer à mon NDA et à ses employeurs.
Je vais dire que j'ai fait ça, si c'est le point prédominant de mon
ographer pursuing ma gueule dans l' confidently.
cool.
On doit savoir que les gens ou les personnes dans votre compagnie,
ils peuvent être dans votre équipe, ils peuvent être un mentor au sein de votre équipe,
que vous ressentez que vous pouvez parler d'un incident en ligne.
Ils sont sous un NDA, vous pouvez dire quelque chose de l'incident.
C'est comme ça que l'une des personnes ou les gens est si importante.
Je encourage les gens à construire les connections dans l'industrie,
que ce soit sur Slack ou sur votre réseau social de choix,
ou sur les conférences, mais à développer des friendships
des gens qui travaillent dans cet espace,
mais ne sont pas avec votre compagnie, c'est très important pour cette perspective.
Je pense que j'ai fini par faire des choses vraiment adrenales et fluentes.
Parce que le truc que je dis à des gens, c'est que vous pouvez voir vraiment calme
comme un commandant incident, quand vous êtes dans ces incidences très mauvaises
et ils sont incroyablement nobles, tout le monde est un peu terrifiant.
Si vous n'êtes pas terrifiant, je voudrais savoir plus
du sang qui se passe dans votre sang, mais ça ne se passe pas dans mon sang.
De l'un qui est au sein de votre compagnie et au sein d'un perspective,
vous pouvez aller et dire que je ne peux pas vous donner les détails,
mais j'ai juste fait un incident et je vais essayer de l'univer et ça,
comme un personne qui est dans l'industrie et qui a fait un truc très important.
Et mon espace pourrait dire que il apprécie beaucoup d'entre eux
parce que sinon, il pourrait entendre beaucoup de incidents à la table.
La dernière chose que je dis à des gens, c'est que vous trouvez quelque chose de separate
qui vous donne perspective, parce que vous vous dealz avec ces choses
et ils sont très réels et ils impactent beaucoup de gens,
mais c'est facile de les faire dans votre monde.
Et donc, pour moi, je vais y aller à l'hôpital des enfants,
mon fils est un dogme de thérapie, il me donne beaucoup de perspective chaque semaine.
Et ce n'est pas pour dire que c'est la raison que je fais ça,
mais c'est un des choses qui sont les deux conséquences que je suis très heureuse.
C'est comme de trouver un moyen de dire que tout ce qui est en train de faire ça
est sérieux et ça peut être tout en compétition
et je veux mettre mon corps et la tête en ce moment,
mais je veux aussi avoir cette perspective,
que si le ciel se plait, mais probablement seulement pour un clé de particularité.
Je vais me mettre une dernière balle de curve pour mon histoire.
En fait, en instant, je veux parler de la réponse instantanée de ma vie,
qui est que je utilise pour aider les vacations de famille.
Parce qu'ils sont comme un incident dans le making,
pas nécessairement dans un bon sens, mais dans un...
Il y a beaucoup de choses qui se passent,
il y a beaucoup de gens qui collaborent, il y a des événements au-delà.
Et juste avoir un moyen de penser en train de collaborer effectivement avec vos peers.
On a tous les autres, mon fils et moi,
on a un secondaire en primary on-call,
on se change,
tout le week vacation de qui on fait la partie de la train de tickets,
des choses comme ça.
On a un moyen de collaborer,
de trouver ces assets quand on les a besoin,
qui a la carte avec la bonne code de check-in,
des choses comme ça.
Et ça ressemble, mais je pense que
d'être capable de faire ce type de situation
de situation un peu pressurée avec un groupe de gens,
ça se transpare vraiment bien dans le monde.
Dépuisement.
Oui.
On n'a pas un système d'incident en termes de tournage,
mais le processus est là,
et la façon de penser,
et la ne pas paniquer,
et la ne pas se dévouer,
et la ne pas,
de se rassembler, de se rassembler.
Parce que tu sais, il faut se faire,
on doit se faire sur le train,
on doit se faire le service.
C'est la attitude.
Est-ce que tu écrives des postes mortaux
au bout de vos holidays?
Oh, Steve, je dois vous demander,
parce que tu as demandé ça avant.
Qu'est-ce qui est le différence entre un sub-zero
et un sub-zero en famille?
Est-ce que tes vacations ont des niveaux de sévérité?
Donc, il y avait un sub-zero,
ce qui était quand les tickets de train n'existent pas.
Et en fait, je suis un responsable solitaire
dans cet événement.
Ce n'était pas une vacation de famille,
je suis juste là,
à mon part,
le ticket de train n'existait pas
dans ma back pack où il était supposed
et la mitigation était de aller
acheter un autre ticket immédiatement.
Et ça a turné,
le ticket de train était là,
je n'ai pas trouvé ça.
Donc, j'ai eu deux tickets de train.
Oh, c'était un responsable n plus.
La rédénance.
C'était bien.
Tu as mis ton sub-zero
parce que tu as utilisé des ressources.
Mais la chose où on a été heureux
sur cet incident,
je l'ai fait en fait,
mettre un sub-zero pour ça,
parce que c'était drôle.
Le lieu où j'ai été heureux
est quand je l'ai été en ligne
pour acheter ce ticket de rédénance.
Je l'ai étendu en ligne
derrière le seul astronaute français
que je sais.
Et on a parlé pour un moment
de comment il a fixé le telescope de la hub.
Il était bien réel.
Il était en train de mettre une bague
qui avait des choses en ligne.
Donc, c'était drôle.
C'est un peu plus difficile
de perdre un ticket de rédénance.
Je pense que ça.
Je pense que c'était en cause, en fait.
C'est vrai.
Vous ne le savez jamais.
Merci beaucoup.
Je pense que l'expérience incidentale
est une des choses
que les gens pensent
peut-être au début,
quand ils pensent sur le SRE.
Mais le détail
que vous pouvez aller dans
et le nombre de détails
n est toujours évident.
Je suis heureux de pouvoir
aller dans ce cas aujourd'hui.
Quoi que vous voulez
ajouter des places
pour vous trouver sur Internet
où les gens peuvent
vous suivre
ou apprendre
votre favorite détail
ou quoi-même.
Je ne suis pas cool
assez
pour les médias sociaux.
C'est ce que je parle de les gens.
Mais je suis sur LinkedIn.
Et je suis toujours heureux
de chanter.
Comme je l'ai dit,
j'ai spent la plupart
de ma vie en faisant ça.
Je l'ai profondement apprécié
l'expérience incidentale.
Je me disais,
« Fais-le bien me envoyer
un message sur LinkedIn.
Je peux me prendre un peu de repos
selon la vie que je vais.
Mais je l'ai toujours essayé
de reposer.
Je l'ai toujours apprécié
de chanter
et de savoir les gens
dans le space incidental.
Comme si vous me voyez
à une conférence,
je suis toujours heureux
de prendre le lunch
ensemble et de chanter.
C'est comme ça que vous me trouvez.
Je ne suis pas cool
assez pour les choses sociaux
anymore.
Je ne suis pas aussi
pas sur les médias sociaux
mais je suis sur LinkedIn.
C'est le meilleur de mon
travail, le seul qui est
très là-bas.
Je ne suis pas trop
trop difficile à contrôler.
C'est cool.
Merci d'avoir regardé

C'était un blast.
Merci.
C'est génial.
Merci.
Merci.
Vous avez écouté le podcast.
Google est un podcast
sur l'engineur de la compétition

Visite nous sur le web
sur sre.google
où vous pouvez trouver
des papiers, des workshops, des vidéos
et plus de sre.
Ceci est Steve McGee
avec des contributions
de Jordan Greenberg
et Florian Rathgever.
Le podcast est produisé
par Paul Gullimino,
Sonny Chow et Salim Virty.
Le podcast est téléblogue
par Javi Belcher.
Special thanks
à M.P. English
et Jen Pettoff.

Les infos glanées

Je suis une fonctionnalité encore en dévelopement

Signaler une erreur

GoogleSREProdcast

SRE Prodcast brings Google's experience with Site Reliability Engineering together with special guests and exciting topics to discuss the present and future of reliable production engineering!
Tags
Card title

Lien du podcast

[{'term': 'Technology', 'label': None, 'scheme': 'http://www.itunes.com/'}]

Go somewhere