Human Factors in Complex Systems with Casey Rosenthal and John Allspaw

Durée: 41m18s

Date de sortie: 04/12/2024

This episode features Casey Rosenthal (Founder, Cirrusly.ai) and John Allspaw (Founder and Principal, Adaptive Capacity Labs), joining our hosts Steve McGhee and Jordan Greenberg. Together they discuss how resilience appears in Software Engineering and SRE and explore the importance of understanding the human factors involved in adapting to system failures—highlighting the need for a more qualitative and holistic approach to understanding how engineers successfully adapt to system behavior and improving overall reliability.

Bienvenue à la 3e année de la production de la podcast Google,
sur le podcast Google de site de l'ingénierie et de la production de la production.
Je suis votre host, Steve McGee.
Cette année, nous allons focusser sur le design et la construction de la software nécessaire.
Nos guests viennent de plusieurs rôles,
entre l'intérieur et l'extérieur de Google.
Bonne chance de vous entendre et de vous rappeler,
que l'esprit n'est pas une stratégie.
Bienvenue à tous, à la 3e année de la production.
Je suis Steve McGee.
Cette année, nous parlons de l'ingénierie de software en SRE et de la production de la software.
Nous avons deux guests aujourd'hui qui vont nous parler de résilience et de robustité.
En gros, nous avons deux amis, Casey Rosenthal et John Alsba.
Et bien sûr, j'ai aussi l'honneur de voir Jordan.
Jordan, dis-le-vous, s'il vous plaît.
Bonjour, tout le monde.
C'est bien d'être ici.
Cool. Et pourquoi nous avons nos guests introduits?
Je m'appelle John Alsba.
Je travaille dans une compagnie qui s'appelle Adaptive Capacité Labs,
ici en New York, Brooklyn.
C'est probablement assez, je pense.
Qu'est-ce que l'adaptive capacité, John?
Dis-le-nous un peu plus.
Je suis déjà en train de travailler dans une compagnie ici en Brooklyn,
qui s'appelle Etsy.
J'étais là pour environ 7 ans.
En plus de là,
en CTO, je fais un détail de master's degree en FACTS et de la sécurité du système.
Je me suis traité un peu avant ça,
qui me traite à ce programme,
qui continue de me déterrisser,
et qui fait encore de ce jour,
une compagnie que les types de travail que nous faisons
dans les opérations de software,
en tout cas,
ont beaucoup plus à faire
avec d'autres connaissances historiques,
des domaines critiques,
des domaines critiques,
des domaines qui sont très conséquents,
de la température,
de l'aviation,
de l'air,
de l'air,
de l'air,
de la médicature et de l'environnement clinique.
Toutes ces choses que vous pensez,
si vous entendez le terme,
des facteurs humains,
c'est ce que vous pensez.
Et donc, je me suis réveillé
à un couple de gens
que je l'avais regardé beaucoup,
beaucoup d'autres.
Et,
en fait,
je me suis dit,
« Vas-y, regarde,
est-ce que...
Je suis bien en train de faire ça?
Je suis bien en train de faire ça?
»
Et les deux me sont dit,
« Non, vous êtes,
pourtant,
très bien en train de faire ça.

Je suis désolé de dire ça.
Donc,
on va faire le travail.
Et puis, je travaillais avec eux.
Et puis, je me suis réveillé,
et je travaillais avec les hébés,
qui ont trouvé
beaucoup, beaucoup d'importants choses
dans ces lignes,
incluant des fields
comme l'engineur des résilience.
Hum.
C'est cool.
C'est cool.
On va pouvoir en parler
d'une des des mots de notre nom,
en juste un moment.
Casey, pourquoi ne pas vous introduire?
Bien sûr, je vais essayer de être
tout à l'heure,
avec mon intro.
Je vais essayer.
Donc,
je suis le founder de ce startup
qui s'appelle « Cirisly »
« Ciris » comme le cloud.
« Cirisly »
Oh, je le vois.
Oui.
Et généralement,
je suis le gars de l'engineur des caisses.
J'ai construit et j'ai mis
le « Engineur des caisses »
à Netflix,
l'avangélisation,
j'ai commencé les conférences,
j'ai écrit la définition,
j'ai écrit le livre,
etc.
Et j'ai essayé de
suivre dans John's footsteps,
et j'ai suivi
les systèmes de la salle de santé et de la sécurité,
et j'ai suivi le programme de Master,
mais je ne peux pas le garder.
J'ai toujours été
dédié par des entreprises
et des boules de la musique,
et des enfants,
etc.
Mais oui,
je vais essayer de tourner
le path de la salle de santé
que John a fait en tech.
C'est génial.
C'est un rôle mutuel.
Cool.
Mon maman m'a appelé
un « Engineur des caisses »
quand je me laisse
tout au long de la salle.
C'est-à-dire que c'est la même chose ?
Vous faites ça
pour tester les limites
de votre mère,
et que vous avez des patients ?
Oui.
Et puis oui.
C'est bon.
Je vais te dire
qu'elle a eu le plaisir de le voir.
Dans l'année dernière,
j'ai appris un peu
le rôle,
le rhum que vous avez
appris un peu.
Il y a un groupe
qui s'appelle « Learning from Incidents ».
Il y a une conférence,
l'année dernière,
je ne m'en souviens pas,
c'est quoi ?
Une des choses
qui m'a appris
c'est qu'il y a un bunch de mots
qui ont des définitions
qui sont très proches
à l'un de l'autre,
mais ils sont tous très importants
de l'autre.
Et beaucoup d'entre eux
sont en train de les lister
très rapidement.
On n'a pas besoin de les définir,
mais c'est juste un peu
fun,
pour vous rappeler
que nous avons des résilience.
Certaines personnes disent
que c'est des résilience,
qu'il y a des robustes,
qu'il y a des rebounds,
qu'il y a des responsabilités.
Il y a probablement plus que ça.
Et ils sont tous
tout un peu différents
de l'autre.
Donc,
une chose importante
de ce set de mots
est que
parfois,
les gens utilisent
comme un système de computer,
et parfois,
c'est un système de computer
avec les gens
qui contrôlent
ce système de computer.
Et
comme les mots sont tous
tous les mots,
c'est le dernier point
que ça semble être
le plus important
pour moi,
en mon avis,
de faire surement
que vous inclut
ces gens dans le système.
Et la phrase
« le système de technologie socio-technique
»
a été assez important,
aussi.
Donc, je me demande
si vous pouvez nous dire
les histoires
qui sont nécessaires
pour les gens
d'y comprendre
à un niveau high
pour se faire entendre.
Pourquoi est-ce important?
Pourquoi est-ce un grand détail?
Pourquoi ne ne nous parlons pas
de bugs et des futures
et des choses comme ça?
On doit vraiment
penser à des gens, John?
Est-ce vraiment important?
Casey,
vous pensez ça?
Qu'est-ce que vous pensez?
Si vous vous inquiétez
sur les outils,
ça devrait se mettre
au business.
Si vous vous inquiétez
sur les outils
et les réveils
que vous avez pris,
vous devez
faire attention
à la valeur
des gens
et la rôle qu'ils jouent
dans les systèmes techniques
parce que
ils sont
la partie importante
et généralement
la partie importante
est une bonne idée.
Je concure
avec mon ami.
Je peux même aller
un peu plus loin
et dire que
la seule raison
pourquoi
que les entreprises
sont successives
sont parce que les gens.
Parfois,
on va faire
un exercice de pensée
avec des groupes
ou en conférence
des talks
ou des groupes
et on va dire
imaginez-vous
demain
un expérience de pensée.
À 10h30
à la fin de la nuit,
tout le monde
est
instructeur
de
s'en occuper
et ne faites pas
n'importe quoi.
Ne vous interviendrez

dans votre email
ne vous répondez pas
sur la page
ou sur l'alerte
ne vous permettez pas
de vous faire
rien
pour
ce type
de stuff technique
et
puis
on va penser
comment
le système
va continuer
à vous faire
exactement
le manière dont vous espérez
attendre
ce que
la fin de 24 heures
sera
36, 72
sera moins
une semaine.
Même ceux
qui disent
que ça va laster
une semaine
sont assez
pressés
pour dire
plus que ça.
C'est
un peu
malheureusement.
Ça signifie
que les gens
font des choses
pour
garder le système
en train de travailler.
Donc,
c'est
un grand
accord
que j'ai avec Casey.
C'est
clairement
ce que je voulais dire
c'est
que je suis un peu
chier
et que je suis
plus

chiant
parce que
ce n'est pas
toujours
toujours
focussed
en
comment
on
les
plantes
ou
les
futurs

et

un
casque
car c'est
facile.
2 reasons.
1
havent
.
Donc,
nous avons
100 plus
années
d'havent
d'en penser
de
le
le
de
l'esprit

manière
d'insurer
des entreprises
qui nous ont
fait
de la
manufacturing
et
d'industrie
des titans
de la management
scientifique
qui
nous ont
fait
de la
production
de
les
choses
et
des
erreurs
ou des
outils
qui
sont
désirables
pour la
compagnie
de
la place
de la
blague
pour ces
outils.
Donc,
nous avons
beaucoup de
historie et de bagages
qu'on peut
faire.
Et puis,
nous avons
beaucoup de choses
qui sont
facile
pour
les
numéros
comme
MTTR,
à
l'aimant
et en théorie.
C'est facile
pour les numéros
comme ça.
Et puis,
nous avons
pointé un numéro
et nous avons
utilisé ça
pour détenir
si c'est bon
ou pas.
Je vais
aller
en avance
et
détenir
pourquoi c'est important.
Nous
en
en enregistrant
une
semaine après
une grande
outil
d'outils

costait
probablement
pour
les numéros.
Et
ce sont
des

d'outils

faire.
Et
donc,
nous

Ça ouvre la porte pour régulérer notre industrie et mettre la compétition dans notre industrie,
ce n'est pas pour l'innovation ou les ingénieurs de software, et ça ne sera pas pour...
Ça sera un set-back pour les efforts de DEI, parce que le dégradement et le certifiant dans quelque chose
va favoriser les gens qui ont déjà pu être privilégiés dans notre société.
Donc, notre industrie est en train de faire face à une crise existuelle que
les uns n'ont pas pensé être cognizants de, comme le gouvernement s'est demandé de s'améliorer
dans la régulération de notre industrie, parce que les choses sont comme les outages de la croutche.
Je voulais ajouter Paul Reid, je pense que en 2018, je pense que en 2019,
on a mis ensemble une conférence appelée « Re-deploy » et à la première, la première,
il a dit à la première, et c'est quelque chose que j'ai continué à croire, j'ai hâte de le dire.
Et il se met en place avec ce qu'il a dit, qui est que notre secteur, notre communauté,
notamment dans le sort de la sre, l'adjacent, le charpin des practitioners,
nous sommes enthousiastiques, plus que d'autres domaines ou de plus que d'autres communautés,
sur les réels, concrets, des observations détaillées qui sont en bas.
Franchement, c'est comme, on peut faire un argument, ce n'est pas trop fort,
de l'extrême programmation, de l'agile, de l'adjacent et de l'adjacent, de l'adjacent et de l'adjacent.
Ce n'est pas quelque chose qui ne s'est pas arrivé de quelqu'un qui n'a pas de contact close
avec les réels détails. C'était en commençant, cet enthousiasme, le fait que l'on
s'est appris par l'incidence, le slack a été créé, le fait qu'il y ait plus de personnes
en faisant le master's degree, le fait que Casey a même commencé le programme est notable.
Et ce que Paul a dit, c'est que ce momentum, je suis en paraphrasie, mais ce momentum est important
parce que si on n'a pas de chance à s'assurer que l'agenda soit en train de s'assurer
qu'il soit en train de être géniumment productive, humain et pragmatiquement bon,
le futur sera et quelqu'un va le faire pour nous et on ne sera pas probablement heureux de voir les résultats.
Très bon point. Je vous ai entendu que les gens
évoient d'acclamer un incident parce que ça signifie plus de paperwork. Vous avez l'incident
en itself, les items d'action, la réduction du postmortem et le respect de la réaction,
réveillant le postmortem et le respect de la réaction. Et parfois, ça signifie
que vous êtes nommés et que vous êtes responsables pour que personne n'aime ça.
Vous n'avez pas d'advice sur comment approcher les réactions du postmortem après un incident ?
Je le fais.
C'est une question très grande avec un nombre de potentiels hypotheses. Jordan, je dirais que
il y a beaucoup de raisons, nous l'avons vu beaucoup, parmi lesquels vous le comptez pour
la reluptance de déclare un incident. C'est un label qui est négociable,
il y a toujours un label qui est négociable. Et il y a beaucoup de raisons pour les gens.
Même au sein des gens, oui, bien sûr. Si je n'ai pas dit que c'est un incident,
ça signifie que je vais devoir faire tout ce que je veux. Et parfois, c'est juste un déclare.
Mais c'est seulement un déclare parce que l'expérience a dit à eux que ça ne
ne matters pas, ça ne fait rien. Je vais aller à une rencontre que les gens ne vont pas payer attention
à ça. Je vais mettre un document que personne ne va lire. Et il y a un cycle qui est basé sur cette
expectation. Dans cette situation, c'est juste un déclare. Dans d'autres situations, c'est un autre
chose que vous avez dit, Jordan, qui est un déclare et je peux ouvrir moi-même pour une attention
inondée. Je vais dire ça. Oui, parce que pour plusieurs raisons, parce que si
il y a un incident et quelque chose a été déclare, ça fait attention à la people qui sont super
loin, c'est-à-dire la leadership. Et parce que ça a été labelé, ils sont vraiment concernés.
Mais si on ne le appelle pas, la même réalité peut se placer. Mais ils ne vont pas avoir
autant de raisons. Donc je suis incentivisé à ne pas le faire. La troisième raison,
ce que je vois plus souvent, c'est que les dynamiques, nous avons vu plein de
organisations, pas plein, nous avons vu un nombre de organisations. Nous avons parlé
à la première conference de l'LFI. Je nous ai parlé avec un de nos clients. Et c'est un de
eux. Ils ne sont pas affrayés de faire le paperwork, le document, parce qu'ils ont vu que c'est un
grand... Les gens ont été soumis pour ça. Les gens vont canceler les autres meetings pour qu'ils
puissent aller au groupe des groupes de la nouvelle meeting. Ils regardent le pour le faire. Ils ne sont pas
affrayés que quelqu'un va les cacher ou qu'il va être en table. La raison pour laquelle ils ne sont pas
parce qu'ils ne sont pas sûrs à la fois si c'est un incident. Incidents ne sont pas
en train de se faire un grand état sur leur forehead. Ils disent, je suis un incident. Commencez à payer attention.
Partial, comme si on était degré, mais seulement un petit peu. La raison pour laquelle
les gens vont voir, démonstrent. Si vous avez eu un incident ou expérience un incident,
et après, vous réalisez que ça a commencé de la manière dont vous l'avez vu.
Oui.
Donc, déclare un incident dans cette situation est seulement...
parfois, vous savez ça. Vous savez, vous avez vu le cacau. Hey, ça ressemble à un peu de
mal. Pas assez de mal, mais ça ressemble à un peu de mal. C'est quelque chose ? Je ne sais pas.
Voyez ce qui se passe. Peut-être qu'il va se balader. Peut-être qu'il va se couper.
Aller, on va aller au lunch, on va venir. Il y a un moment où il va passer.
Et puis, il va dire, oui, il ne se regarde pas mieux et il semble qu'il va être plus ou moins.
Maintenant, on va décider. On va nous coller un truc.
C'est un call de jugement. Le call de jugement. Le site de hindsight sera seulement le
qui nous dit l'outil. Donc, ça peut être difficile. Un des parts ambigües des parts de
répondre à un incident est même de travailler à l'incentif ou pas.
Mais aussi, le même truc, parfois, il ne peut jamais être clair quand c'est fini.
Oui, une question que je vous demande, les clients sont confus par ce truc.
C'est, comme, vous utilisez les niveaux de sévérité et vous avez changé? Et pourquoi
avez-vous changé? Quand vous changez? Et qui change? Tout sur la map. Les raisons et
les raisons. La sévérité, pour moi, est juste la malhérité. C'est tout. Et pour moi,
ça me dit que ce n'est pas une science. C'est une vibe pure. C'est bien, c'est où
nous sommes. Mais on ne veut pas nous délouer à penser que c'est une science pure.
Je pense que ce n'est pas bien, c'est que c'est traité comme science.
Oui, c'est un bon point. Et ça nous fait en honte. Parce que l'MPTR est
un autre point. Je vais juste aller au limiter et dire que si vous vous
tracons ça, au best, vous avez perdu votre temps. Parce que l'MPTR est complètement
bullshit. Je ne suis pas sûr. Non, non, c'est Google. Vous utilisez un hors-shit.
Ok, merci pour la clarification. Et je vais juste vous remercier. Nous avons la math,
nous avons les études, nous avons les pensées. Nous avons la preuve que l'MPTR est hors-shit.
Donc, si vous avez la preuve, nous pouvons vous donner l'accès à ça. La preuve existe.
C'est un temps de délouement. Donc, quand les entreprises ont eu l'occasion de
s'attendre à des mauvaises ou des mauvaises choses comme l'MPTR ou la sévélité, la sévélité
est un autre point. Vous avez un effort de s'exercer dans un moyen qui peut seulement lead à des outils
ou des outils. Parce que les entreprises qui sont mal alignées ne fonctionnent pas bien.
Donc, quand vous essayez d'allier autour d'un autre point de vue qui est fals ou
non-sévoilé, vous ne pouvez pas très bien aligner. Et ça cause des résents. Et puis,
les gens ne sont pas allés à des choses. Donc, vous avez un business qui n'est pas fonctionnel
et les gens sont malheureux là-bas, pendant que vous faites ça. Donc, je pense que beaucoup de
les attentions négatives autour du management de l'incident viennent de ça. Un nombre de gens
intuitivement connaissent que les processus que ils sont suivant sont rélevés ou inconsequentiales ou
le mauvais que l'on soit en train de faire pour le bonsté de la société. Mais ils le font parce que
ce processus est mandé par la leadership. Et c'est partie du problème. Si on n'adresse pas
que les砲ercorsome limiting assuming hearingrom transferred all denying
par rapport au motif de la HUD, c'est au niveau de la mobilisation obligeant les będąnés àytters
Et un des esprits spécif dum final.
Je ne vous demande pas de de bon sincère дом mex Rams,
mais il s'agit aussi de ce que ce soit un des fonds.

deitionsbacket, des ensoueurs inklig Authentique et des dévaneyhoe,
des alchemicalesvable, et des ag rituales magnetiques.

Et le take qu'ils avaient était absolument spot-on. Je ne pouvais pas, je ne pouvais pas, je suis le meilleur talk que je vois.
Je suis certainement connu avec le meilleur talk que je vois. Donc si vous n'avez pas vu ça, c'est très bon et c'est juste tout laid out.
C'est vraiment le point pour moi aussi, je me rappelle que ça a été le même talk.
En fait, je pense que c'est la deuxième fois que c'est mentionné sur ce podcast, donc c'est deux votes pour M, la façon de le faire.
Je pense que c'est vrai.
Donc si vous n'avez pas vu les listeners, c'est que vous êtes derrière.
C'est vrai.
Ok, donc on ne peut pas m'entraîner le TTR, on n'a pas juste à la faire, on ne peut pas juste à la faire pour ne pas essayer de faire mal.
On peut espérer que les gens vont prendre le temps de décider, oh oui, c'était un truc et peut-être que nous devons faire des choses en bas.
On a des choses à faire, on a des choses à faire, on a des choses à faire, on a des choses à faire, on a des choses à faire.

On a des choses à faire, on a des choses à faire, on a des choses à faire.

On a des choses à faire, on a des choses à faire.
Mais ça semble plus difficile de le faire.
Ça semble plus difficile pour les wizards de spreadsheet, pour s'agir que c'est une bonne chose.
Ce que je suis en train de faire, c'est de la façon de la mettre les gens à la place, les activités qui font un différence,
en tant que ceux qui sont facilement comptables, si vous le savez.
Absolument.
En tant que wizard de spreadsheet qui a pris les post-mortem-évents,
je n'ai jamais vu un item d'action à SRE qui a dit,
« Keep watching this and see what affects the system over time.
I've never seen, you know, capture if this is an isolated incident
or if this is something that has been ongoing and will continue to be ongoing.
I've not seen fix the thing and then capture it and then report back later.
I've only seen, here are your action items.
When these are done, you can close this post-mortem report
and carry on with your day.
Yeah, that's right for the government to step in and say,
« You know what?
We asked the Fortune 50 companies what their best practices are for action items,
and here they are, so now you have to do these same action items.
So let's take a completely different perspective and say,
have you ever come out of an incident review with the understanding that we need to figure out
if customers cared that this thing happened?
Huge.
Huge.
Like, did this impact customers?
Or, here's another one.
The outcome that we all think needs to happen is the CTO needs to allocate more resources to this.
Like, that's not an action item.
True.
Yeah.
Right, but compare that to an action item.
Which one is more likely to result in a system that's more reliable?
Telling an engineer who's working on the thing like,
« Oh, yes, if you monitor this thing, then it's less likely. »
Or, getting the CTO to invest more resources.
I think we all agree, just off the cuff,
that getting the CTO to invest more resources is immeasurably more impactful to the reliability of the system.
And that's never going to come from an action item list or, I don't know, spreadsheet wizardry.
Yeah.
I completely agree, unsurprisingly.
There's a lot of topics, and Steve, this question is load bearing in multiple ways.
I'm so sorry.
No, it's fine, it's fine.
I'm going to try to keep my thoughts about this topic.
Sorry, topics coherent.
I don't want to be all over the place.
Lots of organizations.
And again, this is mostly in the realm of conventional and typical.
C'est vraiment la seule fois que je vais être sort de abstract.
Ce que l'on voit souvent, c'est que,
along avec les choses qui comptent, je vais le faire en seconde.
Je ne pense pas que les choses qui comptent sont incroyables.
La chose qui est faite, c'est que les choses sont terrible,
que je pense que nous avons déjà découvert.
Il y a des pratiques, parfois, qui sont plus sévères de l'incident,
plus impactants, plus significatives, pour dire ça.
La moins de temps que les gens sont donné
pour produire une explication et une description de l'événement.
Ou parfois, ils disent que vous devez avoir,
que ce soit une norme, une mandat, une politique,
ou quelque chose de ce que vous voulez dire,
dans un nombre de heures, vous devez avoir des descriptions.
Je comprends complètement,
ou que vous êtes dictés ou que vous êtes led
par des obligations contractuelles avec les clients.
Mais ces sont différentes communications
et différentes activités
que d'aider les gens à l'organisation.
C'est ironique,
c'est réversé,
inversé, proportionnel.
Si c'est un incident significatif,
un incident surprenant,
c'est probablement parce que,
c'est parce que c'est vraiment difficile de le savoir,
c'est vraiment difficile de savoir ce qu'il faut faire,
quand vous le savez,
et c'est difficile de savoir si c'est pas ça.
Donc, en autres mots,
le plus compliqué,
difficile, incertain, ambigéous,
événement,
c'est le plus important des temps
pour décrire,
qui est, je pense,
en arrière.
En résultat,
les gens ne le mettent pas,
ils mettent ce qu'ils pensent,
ce sera un peu de recette,
mais ils le mettent en thème,
parfois,
c'est vraiment bien pour vous donner une excuse
pour ne pas être curieux.
Donc, en résultat,
et nous avons seulement évoqué ce confrètes,
pour une heure,
et vous dites,
c'est bien, c'est bien,
et nous sommes blameless,
merci, c'est super blameless,
j'apprécie ça,
mais on a 5 minutes,
et je ne veux pas
aller ici sans 5,
c'est-à-dire,
il y a quelque chose que nous avons déjà fait,
que je peux mettre en bas,
et c'est un peu de démonstration
que vous faites quelque chose,
et si vous avez eu
d'experience
comme un ingénieur de software,
vous avez eu
l'expérience
où vous vous mettez en tête,
vous avez vraiment eu un temps très dur
avec ce bug,
et vous êtes exaucés,
vous avez déjà
essayé les tricks de café
et maintenant vous êtes bloqués
et vous êtes étrangers,
vous vous screwsz, je vais juste vous mettre ça en bas,
et c'est dans la chambre
la prochaine matin, que vous réalisez
ce que c'était,
donc ne vous inquiétez pas
si
dans un temps
mandat,
vous venez avec des idées pour des items d'action
que, à un moment
pour réfléchir, vous réalisez
que c'est une idée terrible,
vous voulez poursuivre les gens
pour aller et faire les items,
quand ils savent
qu'il y a une bonne chance
que vous faites ça,
ça peut faire des choses mauvaises,
ou ça peut fixer
et introduire des nouvelles choses,
une nouvelle vulnerability,
donc oui, c'est pourquoi vous avez vu les tickets,
et vous dites, ne vous fixez pas,
merci Dieu, il y a un point où vous pouvez vous faire
faire des choses,
parce que ce n'est pas une bonne idée,
ce phénomène,
par contre, où vous vous inquiétez
si c'est une action,
ou pas, un item post-incident,
qui se termine
un nouveau set de conditions
ou des nables pour un autre type
de chose,
vous vous inquiétez,
colloquement, vous vous attribuez
à Lauren Hoxley,
je pense que quelqu'un a coïnché
la loi de Lauren,
et maintenant que vous avez un terme pour ça,
vous pouvez le voir.
Je le vois.
Ok, donc si les post-mortems
ne sont pas le moyen
de faire un incident dans un compte
pour votre équipe,
qu'est-ce que nous devons faire
pour les autres?
Quels sont les choses qui
ont vécu de post-mortem reviews
ou post-incident systèmes
qui ont impacté
la reliability positive
dans votre sphère?
Qu'est-ce qui fonctionne?
On a dit que les choses ne fonctionnent pas,
qu'est-ce qui est en train?
Oui, donc c'est la partie
qui est la plus excitante,
c'est Blue Skies.
On peut vous donner un couple de
des moyens positifs
et fructifs pour faire.
La technologie chaosique
est un tout de même,
qui est la plus reliable et
l'understance des systèmes complexes.
Vous pouvez mettre un numéro
sur quelque chose. C'est très facile
de faire de qualitatifs
à quantitifs, mais
je dirais
que les gens ne commencent pas
avec les stuff quantitifs
parce que vous avez probablement
de mesurer la chose faite.
Commence par mesurer les choses qualitaires.
Il y a un frame de jillion
pour mesurer les choses qualitaires.
On peut proposer un couple,
mais il n'y a pas de limites
sur les systèmes que vous pouvez utiliser
pour mesurer les choses qualitaires
et comprendre un système
qualitatif de description
qui pourrait avoir des problèmes
avec la sévélité,
ou les dégâts
des descripteurs, des MTR,
des choses qui ne fonctionnent pas.
C'est un
très jeune cible
pour un fil
que nous pouvons ouvrir
et définir si nous choisirons
de peindre ce fil.
Sans vous mettre en place,
Kasey, pouvez-vous aller un peu plus
dans le cadre de la question
de pouvoir mettre un exemple
en train de commencer
avec un scénario
ou de lire sur un sujet
et de dégager
des outcomes quantitaires ?
Oui, c'est sûr. On aurait
des dégâts de système.
Quand on a un Netflix, il y a toujours
quelque part de ce système qui est dégradé.
On peut prendre ça pour grandit,
juste sur le scale que c'est.
Il y a toujours quelque part.
Déclarer un incident qui a commencé
à la fin du temps,
n'est pas tout de même pas
aidé.
John a donné un exemple
de l'incidence qui a un temps négatif
de résolution,
car il a déjà résolu
la même chose.
Ce n'est pas aidé.
L'un des scales que j'ai
évoqué
depuis des études
instructives
est le method Kirkpatrick
qui a 4
des mesures qualitatives
qui déclare
l'outre de un programme.
J'ai pris ça pour un background
d'éducation, car c'est
dégagé de la classe.
On a appris
un train, et on a
des gens qui ont eu
le train, qui pensaient que c'était
juste leur question.
Et si c'est un casse, c'est juste de la personne
qui était partie de ça. Hey, avez-vous
appris quelque chose de cette réveil?
Ou on a introduit des tools
d'éducation, des people
utilisant les tools, est-ce
l'outre useful à vous?
Et puis, en faisant le stack,
maintenant, vous vous demandez
que les gens qui vous rapporte
sont-ils les choses que vous êtes responsables
pour que vous pensez
que cela contribue
à l'éducation de votre équipe.
Et puis, vous vous demandez
que le 4e niveau
peut, à ce niveau,
avoir des évidences
d'introduire cette
pratique, ou des conversations,
ou des tools, ou tout ça,
que cela a impacté
quelque chose que le business t'en sois.
Et ce n'est pas de l'instrumentation.
Ce n'est pas nécessairement de la mémoire.
Ce sont des
des « gut feeling », mais c'est
quelqu'un de
contexte, et leur compétition
de leur monde dans leur contexte
qui, en ce cas,
si vous vous demandez un exécutif
pour faire des opérations cloud
ou tout ça, vous payez
pour leur expertise pour comprendre leur contexte.
Donc, vous n'avez pas
de mettre un numéro sur ça, vous vous demandez.
Est-ce que ceci improve
comment votre organisation
bénéficie de votre business?
Et c'est une question complètement
différente et
plus intéressante
d'avoir cette réponse que de
dire « est-ce qu'on est en SLO ?
» ou « Comment
ont-ils des incidences de la sévérité
de la sévérité ? » parce que je veux
faire un test pour quelqu'un
si c'est plus haut que le dernier quart.
C'est utile.
N'importe qui a des systèmes de la sévérité,
ce n'est pas un réflexion
sur le succès
de la sévérité,
de la façon dont le business
l'a été prévenu.
Donc, ne regarde pas
ces choses.
D'abord, vis-à-vis des gens.
Oui.
J'ai une réponse qui est
complémentaire.
Je dois dire
qu'on est en milieu de
écrire un livre.
Je ne peux pas croire si je m'ai mentionné ça
parce que ça veut dire qu'on va
ne pas avoir un incident.
Comment ça s'est passé ?
Vous vous faites des changements.
Dans chaque dimension,
statistiquement, mathématiquement,
conceptuellement,
les organisations que nous parlons de
sont astronomiquement
plus successives
que elles sont
en dessous.
C'est un industriel où on parle
de la série de places décimales
après 99 %
statistiquement signifiant.

Qu'est-ce qui va faire
ce qui est réussi ?
Les gens mettent des trucs en temps
et on y tient.
Nous devons avoir des prédenses
pour ceci.
Comment ils le connaissent ?
L'expérience est un
commentaire.
L'expertise est
l'answer.
Ils comprennent
ce qu'ils ont fait
parce que
ils ont une expérience
de ce que ça ressemble
quand ils ne font pas ça.
Et en 2,
ils ont
profité
d'une expérience que quelqu'un
a ajoutée.
C'est la lait
que les systèmes
sont en train de créer.
En 1, je vais commencer
avec la possibilité
d'être capable de
faire ça dans un certain
manière, comme la humidité, la température
et la pression.
Quand vous laissez ça,
vous faites ça déjà.
Il y a beaucoup de activités
d'organisation
qui ne font pas
d'économie.
Ils ne font pas
de la expérience.
C'est un expérience
de la lait
de la lait
d'un expérience

d'organisation.
Ils ont
profité
d'une expérience
d'économie.
Ils ont profité
d'une expérience
d'impossible et
d'impossible
de la lait.
Si vous pouvez
...
...
...
...
...
...

...
...

,
...
...
...
...
...
...
d'increaser le succès par comprendre le plus près
plutôt que l'autre.
Parce que avec tout ce genre de
des choses chaleométriques,
j'ai toujours, mon collègue n'a pas vraiment
aimé ce que ce soit, mais le dynamique
est en train de se faire.
Oh, tu as eu six instants cette semaine.
À part de combien ?
Oui, on est en train de measure
tout le bleu-gris, mais on ne
ne mesure pas le bleu-gris très bien,
non ?
Même si il y a plus de bleu-gris
que le bleu-gris.
Plus de plus.
Plus de plus.
Oui.
9, c'est vrai.
Nous avons pris trop de temps.
Nous avons une question de close,
qui ne peut pas être sérieux
ou pas.
C'est à vous, entièrement.
Ce qui est dans le futur,
dans le futur distant.
Mon belief personnel est que plus de gens
vont dépendre sur les
systèmes de la computer
que les faits aujourd'hui.
Pour le bon ou le mal.
C'est juste de ne pas
faire grand chose.
Et ça, c'est même comme
des choses de la vie,
ou des choses vraiment importantes.
Ça vous fait fricier ?
Ou est-ce que vous êtes optimiste
sur ce genre de choses ?
Comment nous considérons
le futur quand il s'agit
de la société
dépendant des computers ?
Je vais avoir un réponse
et ça me fait
succès, je crois.
Et c'est quelque chose
que mon ami Richard Cook
et moi avons écrit.
C'est ses mots
parce que vous pouvez dire
que vous avez connu Richard.
Son vocabulaire était
assez exceptionnel.
C'est un châtre
en appuyant le SRE
et le titre est
le SRE Cognitive Work.
La introduction
va en dire
que
les choses
sont plus complexes
et qu'elles sont plus successives,
qui se défendent
sur le basis de votre question.
Steve,
il dit que nous sommes
invités à explorer
comment
cela a été fait
et à prendre
quand les choses ne vont pas
bien.
Ce que nous trouvons
est que nous sommes
inspirés et inquiétants.
Inspirés
parce que les études
ont réveillé
une expérience très réfinie
dans les groupes et les groupes
et avec des mécanismes novos
pour en mettre en place
cette expérience.
Il ne se prépare pas
parce que la technologie
et les organisations
sont souvent
tellement
faibles
pour faire
cette expérience.
Au début de la chambre
nous avons
mis un quote
et que je pense
que
il y a des papers scientifiques
qui ont écrit
comment
le travail
que ce quote
a été fait
qui a été écrit
en 1983
a seulement
été plus rélevé.
Et
LeSan Bambridge
dit que
il y a un irony
qui est plus avancé
et que l'automobile
est
plus crucial
doit être
l'attribution
de l'opérateur humain.
Les machines ne sont pas responsables
pour tout.
Mais les gens sont.
Absolument.
C'est une bonne chambre.
Et il y a une opportunité.
Je reste optimiste.
Oui, c'est le
papier d'automation
qui est
off de l'esprit.
Bien, merci tous
à notre guest
John et Casey.
Vous avez eu
des notes

superes pour nous.
Je pense que nous pouvons
s'en summariser
par dire
que les MTRs sont mauvais
et
le facteur humain
de
comment nous utilisons
nos outils
pour
vous en terminer
avec quelque chose
et être responsable
pour quelque chose
est le plus important ici.
Merci d'avoir
déterminé
et
en parler avec nous aujourd'hui
et
à un bon jour, tout le monde.
Merci pour nous en avoir.
Bye.
À vous.

Episode suivant:

Imperative vs. Declarative Change Workflows with Dominic Hutton & Niccolo' Cascarano

Les infos glanées

Je suis une fonctionnalité encore en dévelopement

Signaler une erreur

GoogleSREProdcast

SRE Prodcast brings Google's experience with Site Reliability Engineering together with special guests and exciting topics to discuss the present and future of reliable production engineering!

Card title

Lien du podcast

[{'term': 'Technology', 'label': None, 'scheme': 'http://www.itunes.com/'}]

Go somewhere