SRE Philosophy with Jennifer Mace (Macey)

Durée: 33m4s

Date de sortie: 05/04/2022

What is SRE, anyway? Jennifer Mace (Macey) gives us her definition of "site reliability engineer," discusses how to manage risk, and shares key questions to ask developers.

Visit https://sre.google/prodcast for transcripts and links to further reading.

View transcript

Hello and welcome to the first ever episode of the Google SRE podcast or as we affectionately refer to it, the podcast.
I'm your host today, MP, and here with me as co-host is Vivian.
Hi, Viv here. Happy to be here. Thanks MP.
This series that we will be releasing over the next few months has grown out of a long time internal podcast series made by SREs for other engineers here at Google.
And we decided we wanted to take that idea and create something new for the entire SRE and dev communities.
Over the course of these episodes, we'll be taking SRE concepts, many of which are covered in the 2016 SRE book,
and chatting with domain experts here at Google to hear their opinions on these topics and get some new perspectives.
Et pour commencer, nous allons parler de ce que l'SRE est de toute façon.
C'est Macy. Pourquoi ne pas vous introduirez-vous ?
Bonjour, je m'appelle Jennifer Mase et tout le monde me appelle Macy.
Je suis très heureux d'être ici aujourd'hui et de pouvoir parler un peu de ce que l'SRE veut dire.
Je suis très heureux d'être ici aujourd'hui et de pouvoir parler un peu de ce que l'on veut dire.
Je suis très heureux d'être ici aujourd'hui et de pouvoir parler un peu de ce que l'on veut dire.
Je suis très heureux d'être ici aujourd'hui et de pouvoir parler un peu de ce que l'on veut dire.
Je suis heureux d'être ici aujourd'hui et de pouvoir parler un peu de ce que l'on veut dire.
Je suis heureux d'être ici aujourd'hui et de pouvoir parler un peu de ce que l'on veut dire.
Je suis heureux d'être ici aujourd'hui et de pouvoir parler un peu de ce que l'on veut dire.
Je suis heureux d'être ici aujourd'hui et de pouvoir parler un peu de ce que l'on veut dire.
Je suis heureux d'être ici aujourd'hui et de pouvoir parler un peu de ce que l'on veut dire.

Je suis heureux d'être ici aujourd'hui et de pouvoir parler un peu de ce que l'on veut dire.
Je suis heureux d'être ici aujourd'hui et de pouvoir parler un peu de ce que l'on veut dire.
Je suis heureux d'être ici aujourd'hui et de pouvoir parler un peu de ce que l'on veut dire.
Je suis heureux d'être ici aujourd'hui et de pouvoir parler un peu de ce que l'on veut dire.

Je suis heureux d'être ici aujourd'hui et de pouvoir parler un peu de ce que l'on veut dire.
Je suis heureux d'être ici aujourd'hui et de pouvoir parler un peu de ce que l'on veut dire.
Je suis heureux d'être ici aujourd'hui et de pouvoir parler un peu de ce que l'on veut dire.

Je suis heureux d'être ici aujourd'hui et de pouvoir parler un peu de ce que l'on veut dire.

Je suis heureux d'être ici aujourd'hui et de pouvoir parler un peu de ce que l'on veut dire.
Je suis heureux d'être ici aujourd'hui et de pouvoir parler un peu de ce que l'on veut dire.
Je suis heureux d'être ici aujourd'hui et de pouvoir parler un peu de ce que l'on veut dire.
Je n'aime pas la phrase de faire des opérations de software.
Parce que ça semble que vous avez mis le mien en hôpital et maintenant vous devez la cire dans les kitchens.
Allez faire des opérations jusqu'à que vous avez fixé votre vie.
C'est vraiment un autre discipline d'engineering.
C'est juste que nos priorités sont moins de nous donner des features intéressantes à nos utilisateurs
et plus de faire surement que les features sont en place, et que les choses travaillent bien.
Et que nous restions en train de se passer.
Je pense que ce n'est pas un million de miles différent, est-ce?
Je pense que ça sort de la question de ce que ça veut dire en enjeuneur et de la reliant.
Enjeuneur et de la reliant peut se passer dans un ton de différentes directions.
Et pour moi, c'est une partie de pourquoi je trouve ce discipline tellement fascinant.
Parce que les types d'enjeuneurs que je peux faire dans les ades,
qui sont une très haute, trafic, la laititude, un environnement très rapide,
peut être en train de faire surement que les services sont réellement réellement réellement,
pour que vous puissiez faire le trafic de n'importe quel endroit dans le monde si vous n'avez pas un centre de données.
Mais le type d'enjeuneurs que je pourrais faire dans un environnement de Kubernetes,
qui est plus en train de donner une seule instance de Kubernetes à nos utilisateurs,
ne peut pas utiliser les mêmes tactiques.
Donc l'enjeuneur et la reliant sont des questions.
C'est en train de demander aux développeurs et de leur demander à leurs clients
ce que la reliant signifie.
Qu'est-ce que votre service s'en parle si c'est en train de faire le trafic ?
Qu'est-ce que l'utiliseur considère être délicat ?
Et puis vous servez ça ?
Donc, en parlant de la SRA en train de maintenir la reliant de la service,
est-ce que l'une de mes équipes a aussi les développeurs ?
Ou ce qui fait que c'est différent de la team de la devine ?
Je pense qu'il y a beaucoup de modèles de différentes organisations
que la company peut choisir de s'en faire pour atteindre les mêmes endées.
L'une des choses que Google a vraiment été en train d'avoir,
c'est que beaucoup de services ont eu un nombre de développeurs
qui voulaient être centralisés et faire des improvements d'efficacité
sur la partie de la operation.
Donc vous pourriez avoir 5, 10,
plus que les développeurs,
en appuyant sur une seule SRE.
Et quand ça se passe,
vous ne pouvez pas vraiment avoir les SREs être embedés dans les teams de devine
dans le même manière que quand il y a une map à une fois.
Ça fait du sens.
Nous avons des équipes qui sont plus embedées.
Je veux dire que la team de sequel interne
fonctionne en fait comme une équipe de développeurs et de SREs d'une bonne manière.
Je suis surtout inquiétante parce que quand j'ai commencé comme une SRE,
qui était environ un an avant la pandémie,
je n'ai pas vraiment compris comment c'était une SRE.
Je me suis dit que c'était un rôle de,
« Hey, c'est ce qu'on fait, que vous vouliez joindre. »
Et sans savoir vraiment ce que la SRE a fait,
je me suis dit que c'est un rôle de fun.
Je suis toujours inquiétante de ce que ces définitions sont,
et quand les gens me demandent,
je me suis dit que c'est ce que je fais,
plutôt que ce que la SRE fait.
Je me suis aussi.
Je suis allé sur un SRE,
et j'ai étudier 3 différents teams de Google
et le SRE a été le plus intéressant.
Mais sinon, je serais un développeur
sur, je veux dire, un team de database,
qui, vous savez,
n'est pas de la roudonnance de databases,
mais je trouve cela plus fun.
Je pense que c'est certainement plus intéressant.
Je me sens mal que je pense que peut-être
des gens de la Terre ne vont jamais s'en tomber,
parce que c'est un take intéressant
sur beaucoup de choses.
Google a offert un programme
pour que les développeurs puissent se faire expérimer
6 mois en s'exprimer un SRE
et activer comme un SRE,
ce qui est vraiment un truc utile,
même si ce n'est pas nécessairement
quelque chose que le développeur de la question
pourrait faire pour toujours.
Je pense que ça donne différentes perspectives.
Une des autres choses,
une des autres manges que nous parlons
de les systèmes de roulement de SREs
est la banalité de risques.
Je pense que la MPU a eu des questions sur ça,
oui, je pense que c'est là que je voulais aller.
Je pense que la prochaine question que j'ai
a été, on a commencé par parler de la réliabilité,
et puis, si vous allez
ouvrir le SRE
je pense que c'est un 3rd chapitre,
c'est l'une des premières choses
que le livre parle de.
Il y a un risque.
Donc, comment est la réliabilité
map pour risque ?
Donc, comment est la réliabilité map
pour risque ?
Nous n'avons jamais à Google
essayé d'amener pour 100% de réliabilité.
Donc, on commence par là.
La première chose que vous faites
quand vous essayez de measure la réliabilité
d'un système, est que
vous figurez un métier,
ce que nous appelons le indicateur de service,
et puis vous setez un objectif.
Qu'est-ce que pour ce métier
que vous voulez être bon ?
Normalement, nous aimons 95, 99%
de risque,
alors, c'est
de payer
ce budget 1%,
ce budget 5%
d'assurance.
Donc, un service
qui est heureux de
réussir à 95% de la période
a un risque plus high
parce que vous pouvez payer
5% de vos récits, et c'est
complètement bon et acceptable.
Alors, si vous avez un service
comme je l'ai travaillé sur,
il y a 6 nains de réliabilité.
C'est
99,999%.
Ça veut dire que notre système de monitoring
ne peut pas measure
ce que c'est, parce que c'est plus
réliable que la réliabilité.
Nous n'avons pas beaucoup de risque.
Nous avons vécu 20x
sur la révision, nous avons vécu 20x
de services que nous avons besoin, parce que nous ne pouvons pas
faire ça.
C'est comme que combien de secondes de
downtime par année ?
Non, non, non !
On ne s'est pas
réconnu que nos développeurs
nous demandent de faire ça, parce que c'est un des choses
merveilleuses.
Comme vous dites, Viv, quand vous êtes
dans des équipes séparées, vous devez
négocier à travers la boundary un peu plus
que quand vous êtes dans la même équipe.
Mais parfois vous avez un équipe de développeur
qui dit que le service est important, donc on veut
une très grande % de réliabilité.
Et le SRE se démarre et dit
que vous voulez 4 nains ? On peut absolument
faire ça. Vous allez révéler une fois en
un mois. Non, vous n'avez pas le nouveau feature.
Le développeur est comme, WHAT ?!
C'est pas ce que j'ai voulu !
Mais vous n'avez pas le nombre de nains, et ils ne sont pas

Donc cette communication est aussi partie
d'être en SRE.
C'est quelque chose d'autre que j'ai trouvé
très intéressant, quand j'ai fait mon research
pour cet épisode.
C'est le contraste entre la stabilité
et l'agility.
Et ça parle de
les forces opposées.
Je suis curieux de comment vous vous
regardiez ces choses, à cause de ce que vous avez
regardé.
Si j'avais un SRE
de mon appui qui m'a dit,
on a imposé ce que j'ai fait pour les
développeurs, je serais comme, pourquoi ?
Parce que ce n'est pas...
Ils ne sont pas opposés précisément.
Ils interagent avec l'un de l'autre.
Un service
qui réélise souvent
a généralement plus de stabilité
parce qu'ils sont mieux en faisant.
Quand vous réélisez bi-weekly ou
d'ailey, quand vous avez un point de
gris,
qui signifie que l'automation
va juste faire un rélease quand votre test est passée,
c'est beaucoup plus
facile de
mettre un fixe rapidement
ou de s'assurer la sécurité.
Donc, en quelque sorte,
l'agility
est en fait servie à la stabilité.
Mais c'est aussi vrai que
les systèmes sont seulement à la break
quand quelque chose change.
Et donc,
quand vous interagissez
un change, vous interagissez un chaos.
Et donc, c'est vraiment
presque un triangle
plutôt que un line entre deux choses.
Et le point du triangle est,
vous savez, validation.
Test et canerie.
Comment vous pouvez
assurer et
prouver que ce changement
est safe et bon ?
Parce que si vous pouvez assurer ça vraiment bien,
si vous investissez profondément
dans l'agility, vous avez
d'abord l'agility et l'agility.
Donc, les trois points
du triangle que vous avez
sont l'agility et l'agility
validation ?
Je pense que peut-être que je ne sais pas
si c'est un triangle. Je vais juste faire ça
sur le top de ma tête, mais je pense que
c'est comme ça que je pense.
Si vous investissez profondément
en en déterminant
d'avoir des tests de sécurité,
vous avez d'abord d'être plus agile
et d'avoir une stabilisation stable.
Normalement, dans le SRE,
si vous pensez comme un physiciste,
la variable que vous vous gardez constant
est la stabilité. C'est 99%.
Je veux que ça soit toujours 99%.
Je peux varier
l'autre deux par déterminer
les tests, qui me
permettent d'augmenter ma agilité.
Mais si je ne investis pas en test
et que ma infrastructure ne s'occupe pas
avec des changements, ne pas avoir de bonnes
informations sur les nouveaux,
puis je ne peux pas être
agil et rester stable.
C'est une
chose que j'ai vu
dans mon propre serein,
où on fait beaucoup plus
de l'offline,
des choses qui sont hidden,
où on teste
comment la rélease qui va
faire le Prod
va performer
un jour avant le Prod.
Mais en en faisant que ça ressemble
à ce que le service live
soit déjà en train de faire.
Oui.
Et le truc
qui peut être très difficile
est que
les services et les systèmes et les applications
peuvent être plus
ou moins testables,
selon comment ils sont architectés
de leur inception.
Et ça peut être très drôle
quand vous voulez mettre des opérations
comme la dernière chose sur la checkliste.
C'est pourquoi, sur Google, on a vraiment envie de
avoir des services et des services
qui sont investis en réveillement de design
avant que l'implementation peut commencer.
Pour poser des questions comme,
comment vous allez tester ce feature,
et si vous avez un moyen de moquer
ce data dans la production.
Vous savez?
C'est la autre chose que je suis
inquiétant
de comment ça s'effort
quand vous avez un service ou un service
plus ou moins
de la production.
Vous avez un monde de nouvelles idées
où les services sont là depuis le jour 1
versus les services qui sont
en train de faire un système de legacy
qui peut être un peu trop profond.
Est-ce que l'approche que vous avez
a changé entre ces deux situations?
Je veux dire
que simultanément,
massivement et pas tout le temps,
ce qui est très difficile de me dire.
Alors, nous allons le faire un peu.
Parce que c'est une radio malade.
C'est
très différent de ce que vous faites
pratiquement,
mais philosophiquement assez similaire.
C'est tout à fait des députés.
L'un des choses importantes
pour apprendre à être un bon SRE
n'est pas de rigidement
assister aux problèmes de solution,
mais de présenter des problèmes
et des décisions pour vos partenaires
et les traiter en partenariat
et leur faire les décisions.
Donc pour un nouveau système
vous pouvez venir sur un design et dire
« Hmm, ça semble
une architecture monolithique
qui va être très difficile à tester.
Est-ce que vous pouvez impliquer
dans ces services micros
pour que ça fonctionne? »
Et c'est facile à faire au début.
Si vous avez une production monolithique
déjà en production,
qui a été en train de faire six ans,
vous ne pouvez pas aller en train de dire
« On peut le faire en micro-services?
Vous pouvez présenter ça comme option
si vous avez le staff.
Mais en fait, vous pouvez dire
« Nos goals de fin sont X, Y et Z.
C'est là que nous pouvons les faire.
Je, comme votre SRE,
ne peux pas faire tout à l'heure.
Si vous investissez en faire votre service
plus reliant, je peux vous aider
à faire l'adjial.
Mais si vous ne pouvez pas investir sur votre côté,
je vais prendre tout mon temps
dans le travail des opérations,
en patchant les choses manually.
Ce n'est pas un député, mais je ne vais pas
avoir le temps de l'adjial.
C'est la shift.
C'est tout à l'heure de présenter
les options et de
donner aux partners une main dans la décision.
Je vois que
le SRE a
une consultant dans ces stages
et puis il y a des
les outils de
ce que le développement décide de faire.
Comment s'inquiète le SRE
sur le développement de ces choses?
Par exemple, les testings, les frameworks.
Il est super
de la team.
Nous sommes un enjeunement de software
et de l'organisation
de 60% de software enjeunement
et de 40%
de systèmes enjeunement.
Nous voulons donc nous mettre nos mains
dans le base de la code.
La plupart du temps, c'est plus comme vous vous dites
sur le côté infrastructure,
sur les frameworks de la release
ou les frameworks de testings
et les développeurs pour utiliser les outils existants.
Par exemple,

sont très importants

Les SREs ne sont pas
juste acteurs,
mais aussi des enjeuners
qui vont travailler
sur un projet
dans le base de la code
selon combien de temps vous avez.
Je fais un petit experiment de la pensée.
Il y a un nouveau produit
qui va être créé.
Vous devez décider
si ce launch va
se passer. Quels sont les questions
que vous allez poser?
Ha! Merci
pour la lead enjeune
parce que je suis un peu
un hobby. Je dois poser
trois questions de SRE.
Je veux que mon développeur
soit capable d'enverser
avant d'enlever le pagage.
Je veux en répondre.
Comment ça se débrouille?
Sérieusement,
comment je sais que ça a été débrouillé?
Et en troisième,
comment je fais
quand je sais que ça a été débrouillé?
Donc, ça peut
demeurer
d'autres choses, selon comment le service
fonctionne. C'est possible que
votre pipeline soit malformé
ou que je fasse le pagage
si les queries sont débrouillées.
Mais c'est
ce que j'ai envie de mes développeurs
d'enlever quand ils sont en train de lancer.
Si vous pouvez en répondre,
nous allons avoir une chute
pour mes satisfactions.
J'aime vraiment.
Je dois me demander
une chose.
Tout le temps, quelqu'un me demande
une question et on veut le mettre.
Je veux juste me demander
une question.
C'est la structure que je m'en bats.
À la fois,
dans un système bien organisé,
comment je sais que ça a été débrouillé
côté de laquelle,
pendant qu'il productive,

Comment sais-je que ça a été dévoilé ? Oh, peut-être que ça devrait être dans nos salauds, on n'a pas considéré ça précédemment, mais maintenant on veut que ce soit un partage de notre chose, donc que nos séries savent ce que faire, ou quand faire le fait.
Exactement.
La première question, comment ça se débrouille, ça semble comme une chose qui est assez difficile à répondre exhaustivement.
Oui, je veux dire, c'est, de nouveau, ce sont les choses que vous demandez en conversation.
Parce que, pour moi, être SRE est tout à l'heure question de la question, en conversation.
Donc, je voudrais peut-être donner des exemples à l'administre qui a la feature,
et être en question, vous savez, qu'est-ce que ça pourrait être bien pour être dévoilé ?
Qu'est-ce que ça pourrait être une expérience de user ?
OK, ce serait bien sur les métriques internes.
Qu'est-ce que c'est dévoilé pour être dévoilé ?
Qu'est-ce que vous, comme le développeur, considérez que ce soit pas en train de travailler ?
Que vous soyez en train de faire quelque chose de ce genre de facteur.
Parce que, nous ne sommes pas en train de prendre 100% de responsabilité pour tout aspect de la base de code,
quand nous sommes en train de faire des calls,
des services sont ce qu'on appelle « fully onboarded ».
Certains services sont appelés « assisted tier » ou « partially onboarded »,
où nous sommes les uns qui nous rendent compte que le service est en train de travailler,
mais pas que le business est en train de travailler correctement.
Mais même pour les choses qui sont fully onboardées,
vous ne pouvez pas faire sure que tout est fonctionnant.
Il y a beaucoup de logiciel de business et beaucoup de services.
Je sais comment les parties sont mises en place,
si je ne sais pas vraiment ce que chaque partie fait.
C'est vrai ? C'est comme, comment a-t-il, deux semaines plus tard,
cette shift dans le pipeline de machine learning
a causé un changement dans le profil d'advertisseurs
qui a causé une shift de revenus dans ce système de budget,
ce qui n'est pas mon travail,
je n'ai pas de problème.
Finalement, ce sont les choses qui sont pour moi de debugger,
comme un SRE.
Qu'est-ce qu'il y a aux contraintes et aux SRE ?
Quels extraintes ?
Ce que j'ai intéressé, quand il y a des facteurs externes,
pas seulement les utilisateurs, mais peut-être des ...
Un promettre que vous avez fait ?
Ouais.
Ouais, comme, est-ce que le SRE peut vraiment penser à des agreements contractuels en SLA, ou est-ce que vous
vous avez juste essayé de l'évoquer ?
Bien, il y a des choses, il y a une différence entre les choses que les leaders de l'SRE sont en train de penser et que
chaque single on-call doit être consciente de tout le temps, hein.
Je dirais que les leaders de l'équipe ont un certain souci, donc un SLA, un sérvail de service, est une
chose qui n'a jamais été évoquée, ou l'obligation, à l'aide de l'adresse de l'adresse, ou les
clients ou les clients.
Right.
Pour exemple, je crois qu'à un point, le SRE a un SLA qui dit qu'il n'y aurait pas de plus que
un certain % de temps à la fin pour un cas de Kubernetes.
Quand un évoquement est being suggested, ou un outage est sous le fait que ça traite un SLA qui est
en train de se faire consacrer à l'obligation contractuelle ou, interne, vous pouvez causer
vos clients à être bloqués, parce que vous êtes en train de se faire couler votre SLA.
C'est le temps où même le plus junior SRE on-call commence à avoir une autorité directe.
C'est un peu comme un officiel, mais le SRE on-call s'adresse à dire que le manager
neoute faire lui excimer elle est pas au point de dire interpreting une��i un
sénit錯 ou une girl en plus, et on peut dire il faut qu'on se casse le appartement de Pues
et qu'on va voir la dé photography de cette relation et d' 오늘도 fret des
glandes sur unutches.
homemade comme un également.

Hex.
Mo, Juan, enfin, les inking français perme Ela provez la palette des
ou en ans de pas пять et leasts pourune il a 71 nggak en
strute, il s'éficiait.
Et en monitored 7 chattering.
et de ses collègues de SRE.
Mais il y a un pouvoir dans cette relation
que le SRE a quand il pense que quelque chose est en danger.
Et c'est un pouvoir qu'on doit être careful de ne pas misé à l'utilisation.
Mais c'est important, parce que c'est notre travail.
La phrase que j'ai commencé à apprendre à aller sur le téléphone
que mon manager a aimé utiliser, c'était
« Tu as les clés à la voiture. »
Hum hum. Ne l'étend pas un coup de clif.
Hum hum.
Donc, on a parlé un peu de la constrainture
sur comment ça se débrouille, qui fait ces décisions.
Hum hum.
Comment je sais, comme on l'a dit,
peut-être des objectifs de service.
Je suis inquiète de ce que je fais,
parce que, comme on l'a touché un peu,
le SRE est un rôle très flexible.
Oui.
Et je pense que, et vous savez,
et ce que je fais, peut-être que
on peut prendre notre temps et fixer ça,
ou peut-être que nous devons mettre la voiture vraiment vite
pour éviter d'être hit par un avalanche.
Hum hum.
Comment ça se débrouille ?
Je pense que, quelles sont vos décisions ?
Qu'est-ce que je fais ?
Je suis sûre que vous vous avez probablement
un plan de plus tard pour aller
dans un peu plus de détail sur ce sujet.
Je vais le garder très vite.
Mais, un travail du SRE
est de figure le impact
quand vous êtes págin.
L'enquête est pas tout,
c'est tout ce que le SRE fait,
comme j'espère que vous avez déjà touché.
Mais, premièrement, vous figurez
ce que l'impact est,
et ensuite vous essayez de
mitiger cet impact
pour l'utilisateur le meilleur possible.
Et ensuite vous essayez de figure
exactement comment ça a été,
dans cet ordre.
Donc,
le mitiger à l'abord.
Je suis toujours fier
de mettre le rôle de la back button.
Hum.
Oui.
Et les gens peuvent trouver ça.
Je dois avoir un article
avec O'Reilly
sur les mitigations génériques.
Mais, en fait, la idée est
que si vous êtes un SRE
avec la responsabilité
pour un service,
et que ce service vous intéresse,
si vous soyez au-delà de ça,
vous devriez probablement
avoir un ou deux choses
comme un rôle-out,
qui sont des actions que vous pouvez performer
quand tout est dédié
et que vous ne savez pas pourquoi.
Donc, dans les ades,
nous avons utilisé
le détail à un autre cellule.
Si un cellule est juste actif,
bougez tout le trafic
d'autre, figurez-le en plus tard.
Oui, j'aime ça.
Je pense que c'est un travail
qui peut faire le service
pour un utilisateur.
Il peut faire ça parfaitement
bien,
d'un autre cellule.
J'espère.
C'est toujours le problème
des failures de cascading.
Oui.
Et
cascading est sa propre forme
d'entraînement.
Mais
c'est le travail que vous devez
faire en avance.
J'ai dû se déranger
avec un peu de loop de fail
la semaine dernière.
Et c'est juste...
Oh.
Je ne suis pas sûr
que c'est un loop de fail
ou un loop de fail

si quelque chose ne va pas
faire le bon travail.
Oui.
Je ne peux pas
déranger si c'est le cas.
Parce que c'est juste
un loop de fail.
Oui.
Je pense que
si vous avez ces
mitigations génémiques,
vous déranger un cellule,
vous roulez un autre cellule,
vous roulez un autre cellule,
vous roulez une autre cellule,
qui est une de ces fixations,
vous le faites globalement,
si vous êtes dans une situation
de mal.
Mais en cas de
les listeners,
je ne sais pas si
cascading, failure est
un terme assez
de Google,
mais en bas,
quand vous avez un
bug
ou un problème
qui cause des crashes
dans votre service,
et puis vous vous retirez
à un autre cellule
et ils se rassent,
et puis vous vous retirez
à un autre cellule et ils se rassent,
personne ne vous a pas besoin
de temps.
Le
défi qui vous fait chasser.
Oui, pourquoi?
Ne vous déranger.
Personne ne vous a demandé.
Ah...
En même temps,
oui,
on a eu un belge entrainement
qui a fait ça pour nous,
c'était très drôle.
C'est tout pour me faire
un peu nerveuse,
parce que je suis en train de
faire un truc,

pas maintenant,
je vais être en train de faire
un peu de temps,
et maintenant je suis inquiétant
que toutes ces choses
sont comme,
en fait,
en décevrant,
vont se faire.
C'est bien si elles le font.
C'est tout pour l'investissement
dans votre éducation.
Merci,
je vous souhaite
un réel,
un réel,
un boulot,
et tout le 3e.
C'est super.
Je pense que
nous serons un peu
remises
dans une conversation
sur ce qu'est le SRE,
pour ne pas mentionner
ce petit buzzword,
qui, je pense,
répond à des pages
qui, en fait,
sont comme...
non.
Bien,
ok,
comment
vous...
Vous voulez que je vous dédise
un buzzword MP?
Toil.
Toil,
et tout le monde
immédiatement
fait des horns de la mort.
Qu'est-ce que vous,
ou le livre,
définit un toilet
comme MP,
je dis,
c'est la mécroule.
Mais...
Je ne suis pas...
Je l'ai l'air d'en définir,
et le livre
vous donne un liste
de questions,
et c'est comme...
Oh, mon Dieu.
Si vous répondez, oui,
plus que l'un des ces,
peut-être que c'est Toil.
Donc je vais vous donner
ma définition
de Toil.
Toil
est
une travail
répétitive
qui ne vous rend pas
un improvement permanent.
Je ne pense pas que
la page
est de la paix.
Bien,
une paix répétitive.
Il peut être
répétitive.
Donc,
je dirais,
je ne pourrais pas
répondre à la page
comme Toil,
si vous êtes en train de
reposer la même page,
ou la même paix répétitive,
et puis c'est Toil.
Parce que,
la première fois que vous vous
faites une paix,
vous faites un travail
intéressant et
vous en apprendre.
Et ça
est un improvement permanent.
Vous avez gagné quelque chose.
Le travail
refacteurant
qui fait que votre base code
est plus belle
dans le long terme,
n'est pas Toil.
C'est juste
de la paix.
La raison que
Essaye parle
beaucoup de Toil,
c'est que
Toil est
l'environnement
de l'opps-engineer.
Et donc,
c'est un peu
dans notre préhistorie,
c'est dans notre background.

on ne l'aime pas
et on
t'essaie de
aller
loin de ça
comme possible
en faisant
des choses
comme automating
notre processus de

Manuellement,
la relance
de la binary
est Toil.
Vous n'avez pas
gagné
quelque chose,
vous n'avez pas
appris
quelque chose,
vous en faites
ça.
Et Essaye
va parfois
faire des
procédés manuels
si c'est
ce qu'il faut
pour maintenir
la stabilité.
Mais ils vont
essayer
comme possible
d'automater
ou d'improver
le processus
pour ne pas
être besoin.
Parce que
que

quelque travail
que vous
faites
pour
remettre
Toil,
c'est
de la paix
de
l'Etat.
Et c'est

quelque chose
pour
maintenir
les
procédés manuels.
Donc
c'est
mon philosophie
pour Toil
et pourquoi c'est
mauvais.
C'est mauvais
parce que c'est
un taxe
sur votre temps
et parce que
les gens
n'aiment pas
et donc c'est
un taxe
sur votre moral.
Donc
je pense que vous pouvez
dire
que
la partie où vous vous
vous en prenez des pages
qui vous
sont récouris
quelque chose
devient Toil
quand vous voyez
que
il y a une solution
pour
automater
ou fixer
ou mettre
en place.
SRE
tient
des playbooks
mais
quand vous
avez un playbook
que vous
vous en prenez
et vous vous
suivez
les études
1, 2, 3
chaque fois
c'est un robot.
C'est un
cron-job
tu sais
c'est un script.
Nous avons fait ça
dans les ades
on a
beaucoup de BIN
et parfois
ils se sont
crachés
ou
on a
une
service restart
que
quand un service
était mal
il
avait un message
pour le service restart
et le service restart
s'est reposé
et il s'est rebuté
pour que les SREs
ne devaient pas le faire
et le rebuté
c'est comme
s'il vous plaît
me réservait
ok
je pense que mon équipe
se fait un peu similaire
oui
c'est
oh
c'est possible
si
un équipe
disait
que
un toilette

il fixe
un
bâtiment
il

reposer
c'est possible
que les SREs
ne vont pas
avoir
quelque chose à faire
ce n'est pas arrivé
je pense que
le type
de
le type de
rebut
que nous faisons
le type de
rebut
que nous avons parlé
plus tard
tout ça est toujours

et nos développeurs
sont toujours
introduits
pour créer
des services
nous
nous
nous
nous
nous
nous
nous
nous
nous nous

nous
Je l'ai vu dans le passé.
Vraiment ?
J'avais une situation de situation de hélérée où il y avait un end de géo qui était plus reliant que le GEO.
Nous devions savoir où les utilisateurs étaient.
On peut nous faire mieux ?
Non, nous n'avons pas besoin de ça.
Nous sommes finis à 90% de reliant.
Les ads ont besoin de 4 nains.
C'était à 1-9.
Nous devions juste prendre ce service.
Nous avons pris 2 ans et nous avons été 4 nains et nous avons réveillé.
C'est cool.
Ça peut arriver.
Je l'aime.
Sur cette note.
Sur la note de la règle de choses en pleine et de les dégager.
Merci beaucoup pour votre temps.
C'est drôle. Merci d'avoir regardé.
Nous allons faire sure que l'article sur les mitigations génériques est dans les notes de l'épisode.
Il y a une autre note qui est en train de faire une ténèbre de multi-singles qui est illustrée avec des cranes.
Je suis très enthousiastique.
Un artiste qui a vraiment voulu apporter des bords.
Nous avons fait des bords.
Je me suis dit que c'était les cranes de la perte ou les cranes de construction.
Je lui ai demandé ça aussi.
Parce que l'autre n'a pas eu le fun.
Les cranes de construction sont les cranes de construction avec les cranes.
C'est ça.
Nous avons aimé nos métaphores.
Nous avons aimé la réchauffe pendant que le car est en train de rassurer.
C'était vraiment drôle de vous parler.
Merci d'avoir regardé.
Bonne chance avec le nouveau podcast.
Merci beaucoup.
...

Episode suivant:

Customer-Centric Monitoring with Silvia Esparrachiari

Les infos glanées

Je suis une fonctionnalité encore en dévelopement

Signaler une erreur

GoogleSREProdcast

SRE Prodcast brings Google's experience with Site Reliability Engineering together with special guests and exciting topics to discuss the present and future of reliable production engineering!

Card title

Lien du podcast

[{'term': 'Technology', 'label': None, 'scheme': 'http://www.itunes.com/'}]

Go somewhere