The One with STPA, Jeffrey Snover, and Theo Klein

Durée: 37m18s

Date de sortie: 02/07/2025

This episode discusses Systems Theoretic Process Analysis (STPA), a method for analyzing complex systems. Theo Klein, a Google SRE, and Jeffrey Snover, a Distinguished Engineer at Google, explain that STPA focuses on identifying how system accidents and losses occur due to a loss of control, rather than component failures. STPA helps identify design flaws early, even before code is written! The discussion highlights that STPA is a human-driven process, prompting critical questions about system goals and potential losses, and that Google is adapting the pure STPA approach for commercial software development to make it more practical and efficient.

Salut tout le monde, bienvenue à la fête de la fête de la podcast.
Google est un podcast sur la compétition de l'engineering et de la production de la

Je suis votre host, Steve McGee.
Cette fête est de nos amis et de nos taux de la France.
C'est tout pour ce qui est venu dans le space de la SRE, de la nouvelle technologie, de
les processus modernisés.
Et bien sûr, la partie la plus importante est la fête que nous avons faite.
Donc, bonheur de l'entraînement et de la souhait.
J'espère que ce n'est pas une stratégie.
Aller, salut tout le monde, bienvenue à la podcast de Google.
C'est un podcast de Google sur la production de la SRE.
Aujourd'hui, nous avons deux spécialistes.
Pourquoi pas vous les introduirez?
Mon nom est Theo, je suis un ingénieur de la psychologie de la SRE basé sur New York City.
Et je travaille sur Google pour environ 5,5 ans,
spécifiquement avec Google Maps.
Et dans les dernières deux années, je travaille sur ce truc qui s'appelle STPA,
qui nous parlera beaucoup dans cet épisode.
Je suis super passionné à ça.
Je suis un hater de la STPA,
mais maintenant je suis un convertite et j'ai été choucher la STPA de la Rooftops.
C'est génial.
Je suis Jeffrey Snowver, je suis ingénieur distingué.
Je travaille sur Google pour deux ans et demi,
avant ça, j'ai été à Microsoft pour 23 ans.
Et bien sûr, l'une des choses qui m'a fait croire sur Google
était l'opportunité de travailler sur la STPA et le management de la risques.
Cool.
Et puis on a aussi cet autre gars, Matt,
je l'ai rencontré avant, je pense.
On l'a rencontré ?
Oui, on l'a rencontré beaucoup de fois.
Ok, cool.
Je suis Matt Siegler, je suis votre host.
Ok, donc, la STPA,
ce sont les lettres que quelqu'un pourrait démonter pour nous,
ou un de l'acronyme,
ou un de l'autre, même si les lettres ne matteraient pas.
Qu'est-ce qui se passe ?
La STPA est une analyse de procédé de systèmes théoriques.
Et ce qui est vraiment un de la façon de analyser les systèmes complexe,
donc traditionnellement,
quand on regarde les outages,
on pense aux 5 Ys,
et on pense à une série de temps de séries
qui lead à un outage inacceptable.
Et quand on pense aux 5 Ys, on dit,
ok, on va retourner vers la timeline,
et on voit le 5 Y, et c'est la cause de la route.
Mais la analyse de procédé de systèmes théoriques
fait un vue complètement différent
sur les lois et les lois.
Et ce qui dit, c'est que les accidents
et les lois se passent quand on perd le contrôle au système.
Un part du système est en désagrémentation,
et c'est un problème de contrôle,
pas un problème de défaut.
Donc, je ne sais pas si,
Geoffrey, tu veux le prendre ?
C'est exactement correct.
Donc, ceci est fondé en design de sécurité,
qui est en train de faire la M.I.T.
Encore une fois, tout est fondé dans cette théorie de contrôle.
C'est la M.I.T.
Donc, super, super, et puis, lausier des noms.
Mais c'est exactement correct.
Et donc, il y a des circonstances
où il n'y a pas de loss acceptable,
de la privacy, de la intégrité,
des choses comme ces.
Là, tu ne peux vraiment pas tolerer les lois.
Si tu penses à ça,
tu as un train d'être, tu vas venir à Google,
tu as dit, Geoffrey,
le coeur de la SRE est de managir
cette tension entre
la rédaction et la innovation.
Et le moyen de ce que nous avons fait
c'était de venir avec ce budget de loss,
le budget d'air.
Et ce que ça dit, c'est,
on va trouver un budget d'air,
et puis tu peux aller aussi vite que tu veux,
jusqu'à ce que tu incurses ce nombre de lois.
Et puis tu dois arrêter,
et puis tu resettes.
Et ça balance la rédaction,
parce que tu as dit, je sais comment te donner la rédaction,
tu le fais et tu te couches les check-ins.
Mais après tu n'as pas de rédaction.
Je peux te donner la rédaction que tu veux,
si tu n'as pas de...
si tu n'as pas de...
si tu n'as pas de carence,
et donc, le budget de loss est de ce budget.
Il dit, mais le challenge est,
comment nous allons nous faire la SRE
au niveau suivant ?
Comment nous avons fait cette balance
entre la rédaction et la innovation
et la rédaction,
et donc c'était le challenge que tu as posé
pour me faire Google et travailler sur ça.
Donc, la rédaction de la rédaction est une grande partie
de ça, et la SRE
est juste un tool fantastique
dans la rédaction de la rédaction
du toolbox.
Oui, je voudrais, pour le début,
parler un peu de ce qui veut dire le contrôle,
dis-moi ce que tu veux dire du contrôle.
C'est une phrase que je pense que je sais ce que ça veut dire,
mais je pense que tu as un sens de la rédaction.
Oui, le contrôle est un terme important
en STPA.
Quand tu penses
d'un système complexe, tu as un bunch
de différents acteurs indépendants
qui font des actions
dans ce système.
Donc, tu peux penser d'un humain
comme contrôle.
Le PC est un contrôle en un sens.
Le environnement est un contrôle.
Donc, quand nous parlons de contrôle,
vraiment nous parlons de actions
qui peuvent constater
les processus contrôlés.
Donc, un exemple de contrôle
peut être quelque chose...
Donc, dans le système, on dirait
d'un thermostat dans un sable.
Je suis un humain
dans un sable avec un thermostat
et il y a un boiler.
Comme humain, je peux contrôler
la température du sable
via le thermostat.
Et ça va par le thermostat
dans le boiler, dans le sable.
Le sable n'a
aucun contrôle au niveau du température.
C'est juste.
Je, un humain,
ai le plus de contrôle dans le système
parce que j'ai la plus d'agence.
Le thermostat a un contrôle
au niveau du boiler.
Mais le thermostat n'a pas de contrôle au niveau de moi.
Il a juste de contrôle au niveau du boiler
et transitivement au niveau du sable.
Et le boiler contrôle la température
du sable.
Donc, le contrôle est vraiment
à l'autorité
et les actions
que tu peux imposer sur les processus contrôlés.
C'est un moyen différent
de penser sur le problème.
Et ça fait un peu de
faire le poids au niveau du nid.
C'est pourquoi, je pense que Téo
m'a dit qu'il était originalement un hater STPA.
Il fait quoi ?
Mais il a travaillé un peu de temps
et puis tu te dis, oh, je le vois.
Et donc, le coeur de ça
c'est que ce contrôle
fait des actions sur le processus contrôlés.
Comment ça peut faire ?
Bien, en première place, il a des goals.
Je veux être confortable.
Donc, tu dois savoir que tes goals sont.
Et puis, il a un worldview.
Donc, où tu as un worldview ?
Tu as un worldview de l'information.
Une information externelle
ou d'information du processus contrôlé.
Et puis tu prends ce worldview,
tu comparais avec tes goals.
Si tout est aligné, bonjour.
Tu n'as rien fait.
Mais quand le worldview est en conflit
avec tes goals, tu dois faire quelque chose.
Et tu fais quelque chose,
c'est de dire que tu performes une action
pour faire le worldview plus aligné avec tes goals.
Donc, je suis chaud, je regarde le thermostat.
Oh, non, je ne sais pas.
Mon enfant m'a dit
que c'est trop haut,
ou quoi que ce soit, trop bas.
Donc, je vais changer.
Comment est-ce différent
de déclarer vers les systèmes imperatives ?
Tu es un peu un goal.
Et puis tu es la laisse du système
faire le travail.
On a parlé publiquement
d'un système de dénouement
développé à Google
dans le monde de production.
Et puis aussi dans les Kubernetes,
nous avons des opératrices,
nous nous déclenchons un intent,
et nous déclenchons l'opérateur,
observe le système
et déclenche la fonction de la wave
dans quelque chose où ton intent est vrai.
La fonction de la wave, j'adore ça.
Ça semble que ces cousins,
ou bien, sont similaires à l'autre.
C'est ça, c'est ça, c'est ça ?
Oui, je pense que les systèmes que tu as décrit
peuvent définitivement être modèles
dans une structure de contrôle
où ces agents sont contrôlés
et ils sont très clairement
tentant de contrôler un système de dénouement.
Donc, ils modèlent le contrôle
mais aussi le feedback.
Et Geoffrey est en train de décrire
ce feedback.
Et tu as aussi décrivé ce feedback, Steve,
à observer,
donc tu as un intent,
et tu observe le système de production
et tu as dit
que le système de production n'est pas dans le state
que je veux être dans.
Donc tu as observé, c'est le feedback.
Et puis tu processes ce feedback
et puis tu as élevé une action.
Et donc c'est le feedback.
Il y a un loop de contrôle et de feedback.
Il y a des problèmes qui peuvent occuper
quand quelque part de ce loop s'arrête.
Ok ?
Je n'interprète pas le feedback.
Je crois que, pour exemple,
l'environnement de production est dans le stade de la bad.
On dirait que nous avons un complet outage.
Ok ? Parce que nous avons le bon
binaire réel.
Le système de production
qui processera le environnement de production
incorrectement
observe le environnement de production.
Et ça dit, ah, je dois avoir
le correct binaire
de production.
Et donc, il ne fait pas
une action.
Le résultat est que
mon outage persiste, même si je me suis
un outage de production,
pour qu'on ne retire
aucun binaire qui est
« bad ».
Donc c'est un exemple de ça,
d'être incapable de interpréter le feedback correctement
et, en résultat, de faire
un outage persiste.
Donc ces loops de feedback sont vraiment importants.
Et c'est vraiment à la couture de la STPA
de modéliser ces loops de contrôle et de feedback.
Et puis de identifier
les conditions sous lesquelles
ces loops de contrôle et de feedback
sont vraiment importants.
Et quand je dis « un outage inacceptable »,
ce que je veux dire ici est
que nous avons un outage de revenus,
ou que nos lawyer se sont déçus,
ou que je ne peux pas
parler de ce podcast,
quelque chose qui est vraiment inacceptable.
Et on essaie de
savoir les moyens dans lesquels le système
peut arriver à un outage inacceptable.
Now, Steve, je vais vous remercier
pour votre exemple, parce que vous avez
créé un parfait exemple pour
vous décrire deux aspects critiques de STPA.
Vous avez dit, hey,
qu'est-ce qui est le différence entre
un contrôle des conditions de désir,
un contrôle des conditions de désir
où vous mettez les choses et les choses,
vers un modèle de modélisation en opération.
Ils sont tous les processus contrôlés
et ils sont deux patterns pour les processus contrôlés.
L'un est où
l'homme gère la information
comparé à les choses
et que vous performez les actions contrôles.
L'autre est où vous dites
hey, je expère mon intent
et le système fait
ce loop. Et puis,
ce sont deux différents modèles,
ils ont tous les stp,
ils ont des lois et des déjeuners.
Mais l'un des bénéfices de STPA
est que c'est un système
qui vous permet de analyser
les choses qui sont sociotechniques.
C'est pour dire que
certains de ces décisions sont faites
par le système et certains de ces décisions sont faites par vous.
Donc, par exemple, même dans le cas
des décisions des désirs de la configuration,
vous avez fait
la configuration.
Qu'est-ce que votre processus pour faire
cela ? Et souvent, cela a
des contrôles et est informé
par les systèmes, etc.
Et c'est souvent la source d'air.
Le système a travaillé parfaitement.
Je l'ai juste donné aux conférences de la configuration.
Vous vous suggèrez que les humains sont fâlés ?
Jeffrey, comment vous êtes-vous ?
Ça se passe.
Je suis en train de vous parler.
Ça me semble un peu théorique, mais je me sens
que nous sommes en train de faire quelque chose de pratique.
Nous allons faire un modèle
ici, où vous mérisez
l'behavi de quelque chose que
traditionnellement, nous avons un belief
en ce qui se passe.
Nous allons modeler un peu plus
plus bas que nous l'avons été.
Nous allons modéliser ces erreurs
de manière différente.
Pourquoi nous allons nous faire
ce problème ? Parce que ça me semble
que il y a un problème. Je vais avoir
des payoffs. Pourquoi je suis à la direction ?
J'ai presumably des payoffs.
Tellez-vous un peu de ça.
Oui, c'est un point très grand.
Tout est en train de
accueillir les coûts et les bénéfices.
Et comme l'engineur de la site Reliability
ma bénéfice est de
faire surement que nos systèmes sont plus sains.
Quels tools
peux-je avoir dans mon toolbox
pour savoir si un système est
plus sain ?
Je peux faire des reviews en design,
je peux faire des reviews en code,
je peux impliquer des redundancies
en plus,
je peux impliquer des SLOs.
Mais
n'importe quoi
ne peut vraiment être
le plus important
d'understand que mon système est sain.
Je ne peux pas,
en plus de mes reviews en design,
essayer de faire un tour de la route
de toutes ces casques possibles.
Je n'ai pas le framework
pour qui, pour systematically
révéler
la sécurité de mon système.
Et STPA, et c'était un processus
qui nous a pris longtemps
pour se faire bien avec le software,
mais STPA
permet à nous de très efficacement
identifier
les flots de design
avant qu'on aille
rétenir notre code.
Je vais vous donner un exemple.
J'ai créé un STPA
sur
un système qui n'a pas été
créé.
Ce sont les réputés de route.
Il s'agit d'enfermation
de l'univers et il figure
quelle route devrait être fermée
sur les maps Google.
Et
ce design semble très simple.
Réduire un fil,
figure ce qui a changé,
écrire un database.
Ce n'est pas plus simple que ça.
Comment ça pourrait être?
Comment ça pourrait être?
Je peux le faire.
Qu'est-ce que le mauvais?
Nous regardons ce design
et tout le monde
regarde ce design et nous donne
un pouce.
Nous allons lancer.
Et je dis, il y a un autre
STPA qui nous permet
de analyser les designs
qui sont relativement
... on pourrait penser que c'est simple,
mais il y a quelques études.
Nous allons analyser.
Et je dis,
et je dis à mes développeurs,
que je vais faire une heure et un demi
de votre temps et on va lancer
un STPA.
Et on va voir si nous pouvons
coucher des designs.
Et si nous coucher un peu,
peut-être que vous voulez plus de ce STPA.
Ça me semble un peu
comme des méthodes formales.
C'est-à-dire que vous regardez
votre système et vous voulez faire le thème
? Est-ce que c'est
ce niveau de système ou est-ce
totalement différent ?
C'est une question très grande
et ça me semble beaucoup.
Je vais utiliser TLA+,
et ce n'est pas
comme TLA+.
TLA est difficile.
Je ne veux pas faire TLA.
Et je pense que STPA est difficile
d'avoir le droit, mais c'est difficile
pour une autre raison.
Ce n'est pas tedious.
Vous ne vous essayez pas de
définir
l'exhaustion.
Vous regardez
les responsabilités abstractes
de toutes les parts de votre système.
Nous avons
étendu une heure et un demi
avec des développeurs de la pipeline de la rôde.
Et
nous avons trouvé
3 gaps de système
en une heure et un demi.
Vous pouvez en décrire
un semi-colon
ou un
demi.
Nous avons étendu
une rôde de la rôde
du Brooklyn.
Et pour une raison
nous n'adons
pas la rôde de la rôde
sur les maps de Google.
Nous naviguons les utilisateurs
par cette rôde.
Nous avons un backup de voitures
en essayant de crosser
une rôde.
Et nous avons un mega PR
de la rôde.
C'est la rôde.
C'est la question.
On ne veut pas ça.
Comment
peut-on
faire ce système?
C'est la question de la STPA.
Nous essayons de répondre à cette question.
Présumably, vous n'avez pas
un proré de
ne pas avoir des rôdes actives
à travers les parades.
Vous avez trouvé
des lois
sans être si spécifiques.
Les lois
sont des utilisateurs
sur une rôde qui a un parade.
Concrètement, ce qui veut dire
est qu'on n'a pas une rôde
dans notre database sur les maps de Google
où il y a une rôde.
Il y a
une rôde dans notre database.
Vous vous inquiétez
et je vais vous paraphraser
beaucoup de les mécaniques de la STPA.
Mais, on dit
comment ça peut arriver
et comment ça peut être
que nous ne devons pas mettre une rôde
quand nous devons.
Nous avons dans notre structure
la partie principale de notre structure
est notre database.
C'est le système
que nous contrôlons.
Nous avons un contrôler
qui est un autre piece de software
qui est pour assurer
que toutes les rôdes actives
sont sur les maps de Google.
Et donc, il y a une action contrôlée
d'aider une rôde
ou de retirer une rôde.
Et donc, la question est
comment nous devons
ne mettre une rôde quand nous devons.
C'est la question.
Et nous regardons les réponses,
les actions contrôles,
les logiciels de ce contrôler
et, en ce cas,
nous avons trouvé que la logiciel
de ce piece de software
était étranger.
Donc, comment,
a-t-il fait que cette pièce de software
a été ajoutée pour mettre une rôde?
Bien, nous regardons.
Ce que ça fait, c'est un fil.
Et le fil contient tous les actions contrôles.
Et puis,
il y a un autre fil. Et c'est version 2.
Et ce que ça fait
c'est très simple.
Il défonce
les deux fils. Et il dit
Ah, là, c'est une nouvelle rôde
dans version 2.
Je vais mettre
dans les maps Google.
Mais, ce qui se passe
si, dans le processus
d'adverter cette rôde,
il ne faille pas faire ça.
Oh, comme le fil n'est pas
ou quelque chose comme ça.
Le fil n'est pas,
ou peut-être le request
d'HDP,
ou peut-être un maximum de set de retrait.
Et ça ne faille pas tous les 3 retrait.
Vous voyez où ça va?
Je vais avoir un guess.
Version 3 est comparée à version 2?
Pas de Diff.
Il devrait être bien.
Il devrait être bien.
Paré de la parade.
Exactement.
D'accord, il n'y a pas de parade sur Google.
Et donc, le fil ici
est assuré que la version
précédente
de ce fil
est équivalente au state de les maps Google.
Si vous regardez
ce type de diagramme de data flow,
vous allez dire
que vous avez juste Diff et que vous appuyez.
Et si vous failz, vous réappelez.
Ou
même si vous ne pensez pas au failure.
C'est parfois le cas
où nous ne pensons pas au cas de cet état.
Et ce n'est pas,
je ne vais pas disparaître personne.
C'est le nombre de states
que vous devez penser
afin d'exhaustiver
toutes les modes de failure
est
énorme. C'est 2 à la n.
Où n'est le nombre
de parts dans votre state.
Donc
avec STPA, vous commencez
de cette vue abstraite.
Ici, il y a le loss
inacceptable. Et puis vous vous
dévouez un peu plus tard. Et vous vous dites
comment ça pourrait arriver.
Et puis vous vous dévouez un peu plus tard. Et vous vous dites
il doit être cette action de contrôle
qui pourrait peut-être lead à ce loss.
Et puis vous vous demandez une autre question.
Ok, donc, sous quelle condition
pourrait cette action de contrôle
être insafi? Et puis vous devez
même se dévouer un peu plus tard si vous voulez.
Et puis vous voyez
que votre logic de dévouement est flotté.
Et ça est un exemple
d'un cas où vous vous
lead à la losse.
C'est un bon moment. Je suis vraiment heureux. C'est un exemple concrète.
Parce que je n'ai jamais entendu un avant.
J'ai entendu de STPA tant de fois.
Et ils ont été comme, c'est clairement un moment
de risques et de révénements.
Et de pires et de maires et de quelque chose comme ça.
Je suis comme, oui, mais c'est vraiment... Ok, c'est
bien. Donc, mon première question,
ou la chose en bas de ma tête est
quand vous venez pour analyser ça,
vous devez utiliser votre brain smart
pour arriver à ce
haut niveau abstract de
je ne veux pas des voitures
à travers les closures.
C'était le cas qui a
dévoilé le reste de cette analyse. C'est ça, c'est pas ça?
Oui. Ok, donc, le
premier de la étape est
en pensant sur le système
de l'absence
de l'assistance.
Merci, c'est le terme. Et puis vous allez
dans ce processus de figure de ce qu'il pourrait
faire à travers ces lois
pour arriver à la réalité.
Ça va bien?
C'est exactement correct.
Je pense que c'est correct.
On peut parler un peu de la
concernation relative de différents lois
parce que vous n'avez pas de
très unusuales lois.
Le roc se fait
en ce qui fait du déjeuner
à la route. C'est un surprise,
mais ça peut-être que ça ne peut pas
arriver. Mais ça peut arriver.
Et puis vous avez un parrainage,
qui est rare, mais ça peut arriver
une fois en un temps. Et puis vous avez
un jamb de trafic, qui se passe
tous les jours. Je pense que
il y a des probabilités en ce moment.
On a des choses qui se passent.
C'est un question intéressant.
Et dans le monde de la probabilité
de la sécurité du système est
une question de hôte.
Et selon qui vous vous demandez,
quelqu'un peut s'y assurer
que nous avons des probabilités.
En fait, parce que c'est très difficile,
si vous avez
beaucoup de samples,
c'est très difficile
d'avoir une probabilité

Et donc, ce que nous avons essayé
de faire, au moins dans le géo Google Maps
SRE, c'est de
utiliser une métrique différente
pour prioriser
les lois et les mitigations.
Donc, vraiment,
à travers toutes les lois,
il y a un...
chaque loss est inacceptable.
Donc, vous savez,
certains sont plus inacceptable que les autres,
mais vraiment, nous ne voulons pas
n'importe quoi arriver, en définition.
Puis, quand nous regardons
les lois et les scénarios,
nous pensons
dans les nombreuses
de la lausse et les scénarios
et, en fait,
ce qui est plus important, je pense,
c'est la coste de la mitigation.
Donc, comment
la coste sera
pour nous pour éviter
cette loss?
Peut-être que pour 20 %
de la coste, nous pouvons
avoir 80 % de nos problèmes.
Et c'est vraiment juste le profit de la coste
où nous commençons à s'envoyer.
Et c'est important, à ce point,
de faire des distinctions ici.
Et maintenant, nous parlons de un set de choses
qui dévient de l'approche
de la métier STPA.
Donc, pour eux,
ils sont des absolutistes.
Hey, ça a été utilisé pour le design
d'une plante nucléaire.
Ça a été utilisé pour un carrière d'aircraft.
Et pour ça, vous avez dû
le résoudre à tous.
Ça ne fonctionne pas pour notre monde.
Donc, nous avons dû
prendre STPA et sa pure forme
et puis,
hey, dans le monde de
développement commercial, vous avez besoin
de faire des changements.
Et donc Google a été en train de le faire.
Nous avons été documenter ces choses.
Theo et les autres ont été donner des parlerades
sur comment vous avez pris cette
bonne technologie. Mais ensuite, vous vous appliquez
dans le monde réel pour les systèmes
de software pour être efficaces.
Oui, je vais dire que dans le monde de la software,
tout est possible.
Tout est possible, bébé.
Maintenant, pour aller
au point de paraito,
ce que nous avons fait
dans Google est
en fait
de performer 20 %
d'un STPA.
Nous rarement avons le temps
de
faire un STPA.
Et souvent, c'est parce que nous avons trouvé
beaucoup de temps
pour faire des choses.
Et donc, pour remplir
cette histoire de la destruction de la route,
nous avons trouvé 3 problèmes
dans une heure et un demi.
Et le développeur a dit, plus,
s'il vous plaît, on va faire une autre session.
Et donc nous avons fait une autre session.
Et en général,
nous avons pris
27 heures
parmi 5 enjeuners.
Et nous avons trouvé 7
designes de la surface.
7 designes de la surface.
Et ce sont 27 heures de suite.
Maintenant, ces 27 heures
ont été incluses
à la coste de fixer
ces problèmes,
qui étaient
tellement chers
parce que nous n'avons pas construit le système.
C'est une réveillement de design
super efficace.
Et nous pouvons résoudre
ces designes de la surface
par réévaluer le document de la design.
Et
nous avons seulement analysé
20 %
de la structure de contrôle
afin de trouver les 7 designes de la surface.
Ça ressemble un peu
à la développement test
quand vous êtes au point de l'engineering.
Mais au point de la construction de la construction,
comment est-il
nécessaire pour être dans mon design
avant que le STPGA puisse être utile?
Parce que beaucoup de designs ne sont pas particulièrement durs.
Ils ne sont pas
quand vous pouvez montrer et appeler ça.
Je n'ai pas découvert
tous mes cas de l'exercice.
Je suis en iteration 2 de 5000.
Quand
peux-je faire pour le STPGA?
Comment m'attraper du besoin?
La bonne news est
que vous pouvez utiliser le STPGA
avant que vous avez
réveillé votre système.
Nous avons commencé à l'experimenter
interne et cela a été fait
à l'extérieur de Google.
Mais nous avons utilisé
l'interne d'un STPGA
pour déterminer notre système.
Nous commençons
avec les structures de contrôle.
Nous avons découvert le rôle de le système
qu'on veut construire.
Nous pensons
dans le abstract.
Quels contrôles nous avons besoin
pour faire surement
que ces
les lois ne peuvent pas être achetées.
Et nous disons, nous avons besoin de cet contrôler
pour constater ce processus.
Nous avons besoin d'un système
pour assurer que notre database
n'est jamais dans le stade.
Et puis,
quand nous avons découvert
ces requiers de sécurité,
nous pouvons ensuite aller au papier
et dire, comment nous construisons cela?
Et ici sont ces requiers de sécurité.
Ce que nous avons trouvé
est que ces mécanismes de feedback sont débrouillés.
La deuxième chose
est de dire, hey, quels sont les goals
de ce système?
Silence.
C'est comme, non, je vais juste vous demander
ce que c'est supposed à faire.
Silence.
Un peu de goals impliqués.
Ou parfois, nous ne sommes pas even
realizing ce que nous essayons d'achever.
C'est le point. Et donc,
de retour au point où le STPA peut être
c'est utile.
Vous devez commencer avec, que sont vos goals?
Qu'est-ce que le succès a l'air?
Et puis, d'ici, vous devez dire,
OK, quel est le loss?
Et puis, cela peut guider
vos décisions et les décisions.
Ça me semble que le STPA
n'est pas un compiler.
Ce n'est pas un système qui regarde un système
et qui dit, c'est 16 erreurs.
C'est une technique de discussion.
C'est une conversation humaine
par des heures et des bords,
et beaucoup de café, probablement.
C'est complètement correct.
C'est un processus humain
et, en un moment,
c'est un enjeu de question.
C'est ce que je pense.
Et, vous savez, depuis que nous parlons de l'audience,
beaucoup de gens disent, hey,
comment est-ce que vous avez comparé
avec la reliabilité?
C'est un bon exemple de la différence
entre reliabilité et la sécurité.
C'est ce que j'ai fait, mon ami.
Merci pour le set.
Je dois avoir un prop pour cela.
Donc,
la différence entre reliabilité
et la sécurité du système
peut être convainc avec le couteau de la pâte.
La pâte est
un component reliable.
Je ne peux pas
le faire.
Je mets vraiment toute ma énergie.
C'est une bonne pâte de Google,
pas de Google, mais de Google.
Le propres Google.
Merci, je ne peux pas le faire.
Je peux performer
ses responsabilités.
Je peux couper le couteau de la pâte
et je peux le faire en sécurité.
Je ne vais pas être malade
par l'utilisation de couteau de la pâte.
Mais,
si je n'ai pas pris la pâte
et je me suis arrêté
dans l'outlet électrique,
je vais être électrique.
Pour l'audience
qui a monté un outlet,
c'est un outlet de plus en plus
de la compétition.
Je suis très profond.
Vous avez pratiqué ce mouvement.
Je l'ai, oui, plus que de fois.
Ce système que vous vous indiquez,
c'est insafis,
en tant que compétition reliable.
C'est ce que vous avez dit?
Exactement.
Le goal de l'outlet
est de l'utiliser en électrique.
C'est très bon.
C'est très reliable.
La pâte est de rester un pâte
et de être métallique.
Et ça se fait bien être conductif.
Je suis aussi reliable.
Je suis très curieux
et je me demande
ce qui se passe
si j'ai un outlet et un pâte.
Et comme résultat, je suis en train de perdre.
Je suis inappréhensible.
J'aime.
Ça vous révèle l'un des éléments
de la STPA,
qui différente de la technologie
et des approches.
Le STPA est
très bien à trouver
des lois.
Pour chaque component
du système, il fonctionne
en tant que réel
mais le système
produit des lois dévastataires.
Et
le STPA est le seul mécanisme
qui nous permet de trouver
ces systèmes.
En fait, le système 737 Max
était un exemple.
Tout le système
a travaillé en tant que design,
a travaillé en tant que réel.
Mais il y avait des interactions
entre ces systèmes
qui ont résulté
une erreur dévastatée.
Encore une des choses que vous avez
de la STPA, que vous n'avez pas de rien.
Je peux vous montrer un livre?
Vous aimez ce livre?
Un système de pensée.
Un système de pensée par Donnella Meadows.
C'est ce que j'aime.
C'est une bonne interaction.
Il y a aussi des systématiques.
C'est un peu plus technique.
Les systématiques sont un peu plus ouverts.
Mais si les gens n'ont pas
regardé les livres
sur les systèmes de pensée,
je vous recommande
d'avoir un stamp ou pas.
Juste les essais en général, je pense.
Devant ce type de
de la pensée
des systèmes et des compagnies
est super impératif.
Absolument. 100%.
Et la...
C'est juste une chose.
Je suis si content
d'avoir appris le STPA.
Pas seulement parce que c'est le fait
que je travaille à Google,
mais aussi parce que je vois
le monde
dans les systèmes.
Je ne peux pas le voir. C'est vrai.
Et ça a complètement changé mon worldview.
Donc, je vous recommande
d'avoir appris la théorie des systèmes.
À MIT, ils ont utilisé
le STPA pour modéliser toutes les
systèmes sociales.
Et ils ont trouvé
des fleurs.
Je peux le imaginer.
Donc, ça ne s'applique pas...
Je vais voir ce comment.
Je ne le crois pas.
Je ne le crois pas.
Donc, ça ne s'applique pas
aux systèmes techniques.
Ça peut appeler à tout système
dans les mondes.
Oui.
Encore une fois, le socioparticle
ou le sociotechnique.
Je me sens bien comprendre
ce que j'ai fait avant.
Hey!
Le travail est terminé.
Un succès.
Matt, vous avez plus de questions?
Où vouliez-vous voir une picture
plus grande sur ce go?
Avec le SRE,
on a des pratiques
dans leur travail.
On a des tools
qui utilisent ces choses
dans la production.
Presumement, il y a un set
de principes
en design.
Les gens ont des
techniques de la chelon
qui sont analogues
à ce que nous parlons.
Ils vont faire des reviews
dans les designs.
Il y aura des secondes nature.
Il n'y aura pas d'experts
qui vont descendre.
Et ils vont trouver
7 choses très terrible
sur ce que vous avez
décis.
Comme vous l'avez disait.
Il y aura un 2.
Zone 1 Un

dearry
pour далее.

c'est un peu difficile, je vous encourage, Google a créé un set de travail que les gens peuvent...
je vous encourage à commencer avec ça, honnêtement.
Nous nous sommes en train de faire des pratiques, deux services, de les faire à l'application,
produire le contenu pour faire ça.
Theo a un nombre de... Ben Trainor, encore une inventaire de SRE,
et Tim Falzon, un de nos facilitateurs STPA,
a fait un grand blog en parlant de STPA, c'est le futur de SRE.
Et puis, Theo, vous voulez rappeler le nombre de autres?
Oui, j'ai donné un talk à SRECon ce matin,
où j'ai été détaillé en plus sur ce système de roue de disruption,
et j'ai utilisé le bouton là aussi, c'est un bon primaire.
Et à MIT, il y a une conférence de conférence de biais,
où vous pouvez apprendre plus de STPA et de stampes, et ceux sont fri.
Et gardez-vous en compte, parce que je pense que nous allons en élevérer plus de contenu
sur le STPA à la communauté.
Et la conférence de la MIT, un nombre de vidéos de ceux sont online.
Et, encore une fois, je vous encourage à regarder les photos de Google,
parce que les autres sont bien, mais nous allons dans les détails
sur comment vous... Comment vous roulez STPA à une communauté?
Comment vous savez quand vous allez à cette partie, mais pas à cette partie?
Ce sont des choses comme ça.
Ok, merci beaucoup, les gars.
Je me sens bien comprendre cette fois,
ce qui est fantastique, parce que ce n'est pas la première fois que je l'ai entendu,
et je me sens bien que c'est travaillant, c'est génial.
C'est un bon petit peu.
C'est un bon petit peu.
C'est une des choses qui sont plus belles,
vous devez vous mettre votre tête au bouton,
et quand vous passez au bouton,
ça serait un transition difficile,
mais sur l'autre côté, vous devez dire,
« Oh, wow, je l'ai vu avant. »
Où peut-on, les listeners, entendre plus de vous,
vous-même, et sur ce programme,
vous avez des finitions de finitions,
des notes de follow-up,
où les gens devraient continuer cette tour?
Ok, je suis sur Twitter,
et j'suis sur Bluesky,
et j'suis sur jsonover.com
Je n'ai pas un Twitter,
ou un Bluesky, mais peut-être que je dois.
Mais vous pouvez me trouver sur LinkedIn, Pierre Teochline,
j'ai un deuxième nom, Pierre,
qui s'appelle PIERE,
et c'est en primaire où vous pouvez me trouver sur LinkedIn.
Et d'autres fois, pour STPA,
vériez nos blogs,
et vériez la stampée MIT.
C'est génial.
Merci beaucoup, les gars.
C'est génial.
Super, super.
Merci pour nous.
A la prochaine fois,
encore une fois, les gens.
Adios.
Les papiers, les workshops, les vidéos, et plus de SRE.
La podcast est hostée par Steve McGee,
avec des contributions de Jordan Greenberg,
Florian Rathgeber, et Matt Siegler.
La podcast est produite par Paul Gulliamino,
Sunny Schau, et Salim Virgi.
La podcaste est télébotte par Javi Beltran.
Merci à MP English et Jen Pettoff.
Vous avez perdu le PageFront de la Vogue.

Episode suivant:

The One with Technical Program Managers and Karanveer Anand

Les infos glanées

Je suis une fonctionnalité encore en dévelopement

Signaler une erreur

GoogleSREProdcast

SRE Prodcast brings Google's experience with Site Reliability Engineering together with special guests and exciting topics to discuss the present and future of reliable production engineering!

Card title

Lien du podcast

[{'term': 'Technology', 'label': None, 'scheme': 'http://www.itunes.com/'}]

Go somewhere