
Postmortems with Ayelet Sachto
Durée: 28m36s
Date de sortie: 31/05/2022
Ayelet Sachto offers advice on creating an actionable, transparent, and blameless postmortem culture.
Visit https://sre.google/prodcast for transcripts and links to further reading.
Hello and welcome to episode 9 of the Google SRE podcast or as we affectionately refer to it, the podcast.
Ce sera l'épisode final de notre début de l'année et la dernière semaine nous avons parlé de l'incident et de la réponse en appel.
Cette semaine nous nous allons nous remercier à ce qui se passe après l'incident, pour nous rappeler de la situation.
Alors, nous sommes aujourd'hui à parler de post-mortems.
C'est Islet, vous voulez vous introduire?
Oui, merci. J'ai hâte de vous en parler.
Je suis Islet Sachita, je suis currently a psycholabileurs en GQE SRE Team London
et formulement un ingénie de la stratégie de la cloud et de l'éducation de l'esprit de SRE Efforts en Mer.
L'incident, le management et les post-mortems ne sont pas de nouveau pour moi,
car je suis en train de vivre et de faire de la production sur une grande scale pour deux décennies maintenant,
en développant et architecturant une application de large scale et de la date de la flow
et en implementant des pratiques de développement et des mythologies SRE.
Les meilleurs ont été créés pour la production en colère,
et au-delà de ma main-rôle, je suis aussi en train de participer à la communauté tech,
comme mentor, public speaker et organisateur.
Oh, vous êtes très occupé, vous êtes très occupé, en essayant de être...
Donc pour ceux de nos listeners qui ne sont pas très connus avec le terme post-mortem,
pouvez-vous nous donner votre définition de ce que le post-mortem fait de post-mortem?
Pour répondre à ce que sont les post-mortem, ou ce qui fait le post-mortem,
c'est aussi important de comprendre pourquoi on parle des post-mortem,
et ce qui est un problème que nous essayons de résoudre avec les post-mortem.
Les post-mortem sont un record réconcilier d'un incident.
Ils doivent inclurent les actions qui ont été mis à l'impact de la clientèle,
et résoudre l'incident, les stages qui sont plus souvent que les noms seront séparés,
l'impact en soi, les causes de route,
et c'est important de emphasir les causes de route,
et pas seulement les symptômes,
les actions qui sont suivantes pour protéger l'accident.
Notre objectif pour le post-mortem est de protéger l'incident de l'accident,
et de réduire la probabilité d'impact de futurs outages.
Il y a beaucoup de choses que nous pouvons faire pour réduire l'impact de l'incident,
ou de réduire la fréquence des incidents.
Mais le data qui est venu de les post-mortem est crucial pour comprendre
ce que nous pouvons prioritiser et ce que nous devons prioritiser.
Les post-mortem sont notre outil pour apprendre nos défais,
et si nous avons un processus formalisé de apprendre des incidents,
ils vont réécuer.
Les post-mortem nous permettent de apprendre pas seulement nos défais,
mais aussi d'autres.
C'est pourquoi c'est important de les partager globalement et de ne pas les évoquer.
Mais pour pouvoir apprendre de leur, ils doivent être à la hauteur.
Parce que cela va prévenir cette conversation sur qui fait quoi,
et peut-être à la faute.
Nous ne voulons pas que les gens s'entendent d'informations,
ou de ne pas déclarer l'incident,
parce qu'ils sont fiers d'un défi.
Nous voulons encourager la culture
pour que les gens ne soient pas fiers d'en faire des risques.
Ça fait du sens, j'aime ça.
Il y a beaucoup de transparencies autour du processus,
juste d'être vraiment honnête et d'être ouvert.
Et ça ressemble à, quand ça va bien,
ça fait une communauté plus forte,
et un product plus fort pour la promotion.
Comment vous faites surement que les postmortems
font ça ?
Quand vous vous dites que vous allez documenter
ou faire un truc après,
vous vous démarrez un peu de choses,
parce que vous êtes fiers et que vous êtes faite.
Comment nous faire surement que nous évoquons les postmortems ?
Nous avons des versions de TLR
de comment nous assurer que les postmortems
sont rétés, et que ceux sont captés
avec des guidelines spécifiques,
et que nous avons besoin de processus fort.
Nous avons besoin de systèmes et de tools
pour être en place pour faire ça plus facilement pour les gens.
Quand vous vous demandez
ce que vous considérez comme un bon postmortem,
nous devons penser à un checklist
des choses qui sont déclarées.
Une des informations que je vous ai mentionnée,
comme les stages de la milestone,
la timeline est très importante,
et parfois les gens pensent que
c'est un incident qui a commencé
et que l'impact peut être mitigé,
mais ils ne sont pas capturés en tout cas.
C'est important de comprendre
le temps que nous avons pris pour chaque étape,
parce que avec cette information,
nous pouvons improving et comprendre
où nous avons la gamme.
Est-ce que c'était le temps que nous avons pris
pour détecter l'issue,
où nous avons été alertés,
où nous avons été escalés par un client
qui est très important de comprendre,
si nous l'avons mitigé très très rapidement,
donc nous n'avons pas eu l'impact de l'accès de l'accès,
mais l'incident a été fermé
quelques heures après un jour,
ce qui est aussi très important de comprendre,
parce que nous l'avons mitigé,
donc nous ne voulons pas compte de ce temps,
mais nous voulons compte de les actions
de la follow-up et de l'accès de l'accès.
Si nous parlons aussi des choses
que nous voulons assurer en plus de Mordem,
nous voulons éviter des langues blagues.
Nous ne voulons pas focusser sur les gens,
comme je l'ai dit,
nous voulons focusser sur l'improvement
et promouvoir un processus
interdit et collaboratif.
Donc, c'est important
que tout le monde review
les réveils de Mordem
pour qu'on soit réveillés,
pour qu'on soit sûrs
que nous voulons nous faire
Nous avons aussi une langue
qui n'est pas pointée
aux mains,
qui est blamé
et qui nous encourage
à prendre ces risques.
Un autre point important
est que le Mordem
doit inclure les items d'action.
On veut généraliser
nos réveils de Mordem
pour qu'on ait des items d'action.
Mais, on ne peut pas
changer les réveils de Mordem.
Comment pouvons-nous
fixer le problème
si nous ne suivons pas
les items d'action ?
Je voulais aller un peu plus
dans la blamé-liss-ness.
C'est-à-dire que
la langue
est fac-focus ?
Comme ce qui s'est passé
et l'engineur a poussé
un config que ça a causé ?
Ou est-ce qu'il y a plus de secret
ou est-ce que c'est
juste comme facile
de reconnaître que les gens ne sont pas parfaits,
que les gens ont des erreurs, et que
ce sont les faits de ce qui s'est passé ?
J'ai voulu que c'était facile.
Comme si
une culture et une transformation culturelle
se changeait,
c'est plus compliqué
que un checklist
ou de la façon dont notre langue
est alignée avec la terminology spécifique.
Mais, pour le préfet
de notre audience,
la blamé-liss-ness est la notion
de la responsabilité de
les gens, des systèmes et des processus.
Nous voulons
éviter ce point de fingers
que je vous ai mentionné.
Pour l'un de vous qui a été dans l'organisation,
la première question que le manager a
demandé après un incident, c'est
qui a fait ça ?
Probablement vous pouvez le rappeler
et, probablement pas encore,
que vous ne vous ressentez pas
d'avoir pu faire des décisions
et que
les employés
ne sont pas en train
de faire leur travail,
d'avoir besoin d'enlever
des risques ou des changements
et de faire ces changements,
car nous ne pouvons pas les improving
sans les changer
sans les prendre.
Donc, si nous voulons une innovation,
nous voulons
prendre ces risques.
Et si nous voulons prendre des risques,
nous devons accepter que le fêlure
va arriver et,
en plus de la focussation
des gens, nous devons
focusser sur le système et le processus
qui nous permet de le faire.
En fait, dans un email
de la Vempre, il a
bien étudier que les erreurs
sont une opportunité valable
d'apprendre et d'improuver.
Et si nous sommes
mises à cette opportunité,
si nous ne sommes pas
en train de apprendre de nos erreurs,
nous devons prendre la cause
de ces erreurs, mais sans
l'adversité de apprendre.
Dans ce regard,
je m'ai mentionné le impact
et le changement culturel
dans des cas. Et la malheur
est aussi importante pour
fosterer la sécurité psychologique
dans notre équipe.
Donc, pouvez-vous faire un petit plus
en détail sur ce que ça signifie
d'avoir la sécurité psychologique
sur une équipe, particulièrement
dans le contexte de la SRE?
Donc, nous voulons que les gens
puissent être bien sûrs pour demander
les questions correctes qui peuvent
faire identifier la cause
d'un incident, par exemple.
Nous voulons que les gens puissent être
bien sûrs pour ne pas
conserver l'incidence ou le problème
parce qu'on veut l'improuver.
Pour démontrer que, nous allons vous
poser quelque chose.
Vous avez-vous ever
eu une question
que vous n'avez pas demandé
ou une idée
que vous n'avez pas shared avec votre équipe?
J'ai bien sûr pas
demandé beaucoup de questions.
C'est certainement la question de l'air.
Donc, je ne veux pas vous mettre
dans le spot, mais
souvent, quand les gens ne sont pas
sentis bien sûrs
pour ne pas demander une question
ou pour ne pas donner une idée, ça peut être
un signage de l'inquiétude psychologique
de la santé psychologique
de cette équipe.
La santé psychologique est un belief
que, pendant que l'un ne sera pas
détenu ou humilié
pour parler avec des idées,
des questions, des concerns, des erreurs.
La culture psychologique
de la santé psychologique
a compris que les choses
ne vont pas se faire, les défais seront
passés et ces débrouillages
devraient être communiqués
et la santé psychologique est
critique pour
prévenir
ce incident de la hôpital
parce que nous voulons improvement,
nous ne voulons pas hôpital.
En fait, une bonne notion
pour cela
est de penser
si vous ne vous demandez pas
la question, si vous ne vous
partez pas de votre idée.
Vous vous prenez pour
prévenir le reste de votre équipe,
le reste de la population
de vos opportunités pour apprendre.
En fait, je me demande
beaucoup de questions
que, pour moi et ma tête, je me dis
non, ne me demandez pas, ça ressemble
à un stupide, ou tout le monde
sait ça, ou quelque chose comme ça.
Mais, ce que je vais essayer
de faire c'est de me demander
et, si ce n'est pas
ce que si une personne
dans la équipe
peut bénéficier de cette question.
Qu'est-ce que si quelqu'un
peut être plus junior,
peut être moins vocal,
peut être
que c'est de la mutilité, peut être
qu'ils ne se sentent pas
assez bien à demander cette question.
Qu'est-ce que si ils ont
la même question, mais qu'ils ne sont pas
assez bien à dire ça ?
Je me préviens de
les opportunités pour apprendre.
Je pense à la syndrome de poste
et de la self-doubation.
Je pense que c'est quelque chose
que beaucoup de gens
dans Google share et en général
si votre idée
n'est pas si stupide,
n'est-ce que si personne ne pensait
ou pas de cette perspective ?
Donc, pour se développer
même si cette idée ne
semble pas
comme une autre,
c'est important de les voici.
Et plus important, c'est important
pour les managers
d'organisation
de créer un environnement
que les gens sentent
assez bien et assez impuifiés
pour les voici.
J'aime ça. Et je suis vraiment heureuse
de vous toucher sur le fear
de parler en tant que syndrome de poste
ou d'autres choses qui
peuvent arriver par la personne.
En ce cas, je pense que
ma team a
une environnement où les gens sont
encourageés à demander des questions
mais je pense que c'est toujours difficile pour moi
de faire ça,
parce que, comme vous l'avez dit, c'est
assez nerveux et c'est comme
si tout le monde le connaît et je suis
juste le seul qui n'est pas assis ici
comme vous l'avez dit, c'est pas stupide.
Donc, c'est très rigolo.
Même si vous avez l'environnement, il y a toujours des horreurs
et peut-être que vous pensez que vous avez un environnement
et que ça pourrait être mieux.
Donc, beaucoup de facteurs sont venus jouer.
Et en fait, la solution est
exactement ça, c'est de la question
et c'est d'actuellement encourageant
d'autres à demander des questions
aussi.
L'une des choses préférées que j'ai
de la suggestion est de
faire un exemple.
Et c'est avec des questions,
avec d'autres comportements
qui vous valent.
Ce n'est pas juste pour les managers
ou les tech leaders, ce que je vais dire.
Mais, c'est de l'accompagner
que vous aussi ne savez pas tout.
C'est de l'accompagner
que vous devez
aussi demander des questions.
Et
de la modélisation de la curiosité
aussi.
De cette façon, votre équipe,
et encore, quand je vous dis que votre équipe est pas
juste comme leader, pas juste comme managers,
c'est pour nous tous
que nous faisons le culture
de nos équipes aussi.
Encouragez-vous d'autres
et ne découragez-vous
d'autres à demander des questions.
Je l'ai mentionné avant
qu'en créant
la sécurité psychologique
n'est pas si simple
et c'est
juste de demander des questions, c'est très simple.
Mais ça fait des temps
et aucun changement
en temps. Donc, pour les équipes
qui ne sont pas encore là,
commencez à interagir,
comme nous faisons avec les problèmes
de la technologie de la software.
Ça va prendre du temps, mais
l'important
est que
ça va augmenter le temps
et faire des tries
pour meilleure position.
Il y a quelques autres choses
sur la sécurité psychologique
que j'ai voulu
aujourd'hui.
Je vais vous parler
des items d'action
et des suivants de postmortem.
Est-ce qu'il y a un moyen
ou une faible façon
d'en faire des items d'action
sur un postmortem ?
Tout d'abord,
si vous avez des items d'action
vous êtes en un bon temps.
Mais quand on dit
des items d'action,
ceux doivent être concrets.
Et ceux doivent être assignés, et idéalement
avec une ETA.
Tout le team est un peu différent
et le processus de travail est différent.
Donc, c'est possible que
pour une équipe, c'est ok pour
mettre le postmortem
pour une autre équipe,
il faut être assigné
pour une personne,
pour d'autres équipes et d'autres items d'action.
Il peut être
que ce soit pour mettre un meeting
dans le calendrier.
Il n'y a pas de manière
d'actualiser
un follow-up,
mais d'assurer
que ce follow-up
soit possible.
Et ça se passe
avec d'autres personnes
qui sont assignées.
Et ce ne sera pas
nécessairement
une personne qui réserve tout,
mais
qui peut être une personne qui
va créer un bug,
qui va mettre le meeting,
qui va faire des actions
qui vont promouvoir
ce acte.
Une autre chose d'en considérer
est que
si nous avons des études
dans nos postmortemts, et nous n'avons pas vraiment
parlé de toutes les parts
dans nos postmortemts,
mais dans nos postmortemts,
nous avons usually
ce qui a été bien et ce qui pourrait être
augmenté.
Et pour nous, en Google,
nous avons aussi ce qui est bien,
on veut généralement
transmettre
les choses qu'on doit augmenter,
ce qui pourrait être meilleur
et où nous avons été
heureux pour un acte action.
Par exemple,
si nous n'avons pas eu
un monitor,
ou si nous n'avons pas eu un alerte
sur quelque chose, mais un développeur
a regardé le dashboard exactement
à ce moment-là, parce qu'ils ont
développé un nouveau feature,
donc nous avons été heureux.
Mais peut-être que la prochaine fois, on ne va pas être heureux.
Donc, ideally, un acte action
d'acte action,
qui sera créé,
un alerte, pour créer
une page.
Donc, la prochaine fois,
si quelqu'un ne regarde pas le dashboard,
on le retient.
Qui obtient ces items d'action
dans le sens que
c'est usually
d'une personne, deux personnes,
d'une idée de ne pas
faire que quelqu'un sent que
les incidents sont faibles,
parce que si l'adaptation de
les postmortems peut être
différente entre les équipes
et les organisations,
donc, vous êtes aussi en train
d'adapter que les postmortems
doivent avoir un adornement,
et que l'adornement doit
ne pas juste s'éteindre, mais
s'assurer que ça soit réveillé,
et que ça soit approuvé,
et que ça soit publicisé,
donc, shared globalement,
et de l'aider,
et dans ces postmortems,
ils doivent aussi
assigner les items d'action.
Il dépend de les items d'action,
il dépend de l'organisation,
il dépend de l'équipe,
les items d'action
peuvent être assignés
à, on dirait, le propriétaire
de la politique,
c'est qui soit le expert de la subjectivité,
c'est basé sur la discussion,
c'est partie
de l'adaptation d'une personne
qui doit identifier
qui est la personne qui doit être
involvementée dans les postmortems.
Il n'y a pas de
réponse, et comme on dit
beaucoup d'autres choses, c'est dépendant.
Et c'est ok aussi
de dire, on ne sait pas
qui est l'adornement de l'implementer
X, Y, Z.
Donc, les items d'action
seront pour créer un bug,
et pour commencer la discussion
entre les équipes
pour faire sure que c'est
résoluant
d'un temps spécifique.
Je pense qu'il y a un autre
chose qu'on a évoqué,
en parlant de ça,
c'est la relation
entre
les incidents et les postmortems.
Parce que je sais,
de mon propre expérience,
et je pense que les gens peuvent imaginer,
c'est pas
une toute postmortem pour tout
un outage qui se passe.
Donc, où est-ce
ce point de la tipping
où c'était, oh, c'était juste un petit outage
de, oh, c'était un incident, on a besoin de
faire une postmortem pour ça.
Où est cette ligne ?
Est-ce qu'il y a une ligne claire ?
Encore une question drôle.
La relation entre
les incidents et les postmortems
n'est pas juste que nous ouvrons
des postmortems pour les incidents.
Pour les incidents
et des incidents sévères,
on va souvent ouvrir un postmortem
et on va le sévère en seconde.
Mais aussi,
ça va dans les deux manières.
Donc, quand on a un massif
de postmortem,
cela peut nous aider
à identifier des patterns.
Cela peut nous aider
à réduire
d'autres incidents,
encore plus,
les volumes de l'incident
et aussi la fréquence de ces incidents.
Mais pour faire ça,
nous devons nous relier
à des data postmortem
pour prioriser
comment nous devons investir
et les priorités.
Détachons
un point important
de quand nous devons
faire des postmortems.
Les postmortems,
on va dire que nous avons
un incident de mouillage,
une incident de sévérité.
Ce n'est pas un brainer.
Si vous ouvrez un OMG,
vous vous vous réveillez des postmortems.
Mais il y a aussi
d'autres scénarios
que nous voulons réveiller
des postmortems
qui ne sont pas spécifiques
pour l'incident
ou pas
pour les sévérités
spécifiques.
Je me dis que ça dépend
et ici ça dépend.
Chaque équipe peut définir
quelles sont les critères
pour eux
qui vont réveiller un incident.
Donc,
certains scénarios peuvent être
qu'on a un incident
avec l'impact de l'accès de l'accès.
Ce sont des bases
de la base de la réveiller
des postmortems et généralement
il y a un fort accord sur ça.
En Google, nous avons
un service level de service.
Si nous nous le brechons,
parce que c'est un incident,
nous devons définitivement
réveiller des postmortems.
Mais il y a aussi d'autres scénarios.
Par exemple,
si nous avons un cas
de date de loss,
et nous n'avons pas
un impact direct sur le customer
encore, donc c'est un impact
potentiel de l'impact de l'accès.
Mais en ce moment, nous
voulons encore créer
un record
de ce qui s'est passé, de ce qui s'est passé,
de la réveiller, de l'attention.
Et en tant que clientèle,
nous avons encore une réveiller
et nous avons acheté
cela par les postmortems.
Donc d'autres cas
que nous voulons avoir
des postmortems, même si
nous n'avons pas déclaré
un incident, ou nous n'avons pas déclaré
la priorité 1
ou la priorité 0
dépendant de l'organisation.
Comme je l'ai mentionné,
les visibles et les sous-tracteurs
sont souvent en train de
faire un incident
avec quelque sorte de P1
mais cela peut être
aussi une agréation de la service.
Cela peut être aussi un cas
quand une seule couleur intervient.
Cela peut être aussi
que nous avons pu relancer
et que nous devons réveiller.
Nous avons réveillé avant que nous
avons eu un impact customer,
ou que l'impact customer était
moins grand, que nous n'avons pas
un incident ouvert.
Mais nous voulons
toujours garder la track de cette information.
Peut-être que nous avons routé la trafic
parce que nous devons
créer un postmortem
afin de faire un incident
plus bas, mais
avec une résolution
qui est à la place
d'une threshold.
Nous avons eu un nombre de faillite
pour le sol.
Si nous avons eu un nombre de faillite
των films,
de tr це pollution
S'il vous plaît,
d'ouvrir un postmortem, que peut-être ce n'est pas un incident avec une priorité spécifique ou une sécurité.
Les Misses-Niais sont aussi généralement de cette catégorie très grande.
Peut-être qu'on veut prendre un petit peu de plus en regard, même si ce n'est pas mal à cette époque.
Oui, exactement.
Donc je pense que, en termes de rappelage pour aujourd'hui,
quelles sont vos finales pensées pour ceux de nous qui veulent faire des postmortems plus vides dans notre jour aujourd'hui?
Qu'est-ce que l'adresse plus grande que vous avez à nous donner?
En fait, une de mes recommandations n'est pas juste de faire un postmortem.
Beaucoup de organisations sont en train de faire un postmortem,
de capturer ces notes, mais après ça, ne pas se partager.
Ou pas de se partager publiément, pas de la suite.
Et c'est aussi un mis.
Donc, on a écrit un postmortem.
Et ça peut être un très lent,
ça peut être le plus grand postmortem,
si vous ne vous partez pas,
d'autres personnes ne seraient pas en train de le apprendre.
Donc, une des choses que je dis avec l'organisation que nous travaillons,
c'est qu'ils sont en train de faire des postmortems.
Ils pensent en leur langue.
Ils tentent de capturer aussi des items d'action,
de faire des postmortems et d'améliorer, mais ils ne le font pas.
Et souvent, dans ce moment où les gens parlent de ça,
je vais en parler d'un exemple,
après Google Time,
qu'en fait, parce que quelqu'un a écrit un postmortem,
pour un problème dans un système de production
qui n'était pas sous mon,
on dirait, le chef d'ownership en temps.
Et ils ont shared, publiquement,
ils ont shared avec R&D en général,
je me suis rendu capable de prévenir
un problème dans notre système,
parce qu'ils ont shared un problème
que nous avons aussi rencontrés,
et quand nous avons connecté les dots,
cela a montré un problème plus profond dans nos systèmes.
Et nous pouvions en résoudre
la cause de la route pour les systèmes.
Donc, parfois, on dit,
on ne veut pas le partager trop grandement,
parce que ce n'est pas réellement pour eux,
ce n'est pas le même système,
ce n'est pas leur ownership.
Et ils gardent cela dans le scope de la team,
ou dans le scope,
même parfois leur PA, leur organisation.
Mais les autres peuvent apprendre et m'improver de cela.
Je encourage chaque organisation
de partager le plus grand possible
et créer l'infrastructure
pour le partager grandement.
Bien sûr,
en quelque cas,
nous devons réduire l'information,
surtout les données de l'accès,
mais ce ne devrait pas être un bloc,
nous devons trouver un travail
pour cela aussi.
Nous avons des solutions pour cela.
C'était un vrai conseil.
Je pense que c'est quelque chose
que je vais vouloir incorporer
plus dans mon travail,
pour que je sois en train de
regarder des post-mortemps
de mes peers,
et que je le read
en essayant de l'internaliser,
et aussi pour que je produise
des choses qui sont sharedes
et déceminées.
Merci beaucoup pour votre temps.
C'était vraiment bien.
Merci pour les informations.
Merci beaucoup pour être
notre 9e et final guest
sur cette première série de la podcast.
C'est un bon moyen de râper les choses.
Nous avons des conseils.
Nous avons parlé des post-mortemps,
et peut-être que nous allons faire un podcast pour ça.
Je ne sais pas.
En fait, je recommande
de faire des post-mortemps
pour beaucoup d'autres incidents.
Rétrospective est important.
Si nous l'avons réparé,
nous allons le partager.
Merci d'avoir regardé.
Merci d'avoir regardé.
...
Episode suivant:
Les infos glanées
GoogleSREProdcast
SRE Prodcast brings Google's experience with Site Reliability Engineering together with special guests and exciting topics to discuss the present and future of reliable production engineering!
Tags