There Remains a Huge Amount of Work to Do, with Healfdene Goguen

Durée: 26m14s

Date de sortie: 11/09/2024

In this episode, Healfdene Goguen (Principal Engineer, Google) joins hosts Steve McGhee and Jordan Greenberg to discuss the vast amount of work to be done by SREs, and the fascinating challenges to tackle with clear real-world implications. It's a truly exciting time to be an SRE at Google!

Welcome to Season 3 of the broadcast, Google's podcast about site reliability engineering and production software.
I'm your host, Steve McGee.
This season we're going to focus on designing and building software necessary.
Our guests come from a variety of roles both inside and outside of Google.
Happy listening and remember, hope is not a strategy.
Hi everyone and welcome to Season 3 of the broadcast.
I'm Steve McGee and I'm your host this season.
Today we have a special kind of in-between episode since last season was about the different stages of being an SRE in Google and outside of Google.
We now have a guest today.
We have Hilton Goguen and he is an SRE inside of Google and he actually started as not an SRE.
He started as a software engineer and he moved into SRE.
So this is sort of like the side channel into SRE within Google.
So we thought we'd address this because Season 3 is all about doing software engineering inside of SRE.
So we felt that it was an appropriate sort of bridge episode.
So given that, we also have a new co-host.
I have here Salim Bergi and with that, I think we'll just kind of get started.
Hilton, do you want to introduce yourself before we get going?
Thank you.
Yes, so I'm Hilton Goguen and I've been at Google for about 18 years.
As you said, I worked in a bunch of software development and just recently started working in SRE.
I'm excited to talk.
Cool, welcome.
And Salim, why don't you introduce yourself as well?
Thanks Steve.
It's a pleasure to be here today with you both and I'm Salim.
I'm part of Google's SRE education team and I've been part of SRE in one form or another for about 20 years.
And I've seen a lot of interesting software development take place in SRE.
And I'm excited that this season we'll be digging more deeply into that.
Great.
So let's just start from where we begin, right?
Like what brought you from like a pure software engineering role inside of Google into SRE?
Like what attracted you and how did you make the jump, PILF?
So I think I've always had a broad range of interests.
Je me suis aimé de focusser sur quelque chose et de devenir un spécialiste dans un certain secteur.
Mais après un certain nombre de temps de la vie, je me suis aimé de se faire attention et je me suis aimé de bouger sur quelque chose d'autre.
Et donc je me suis interprété par un peu de différents secteurs.
Et comme je me suis interprété par ces secteurs, dans les dernières 30 ans de ma vie,
je me suis rendu compte que je me suis rendu compte que des choses étaient plus attractives pour moi et des choses qui n'étaient plus attractives pour moi.
Et oui, on peut parler plus en détail sur ce que les projets sont allés à ce point de vue.
Mais je pense que à un moment, je réalise que la chose qui était plus attractive pour moi,
ou plus importante pour moi, était avoir un service en production
et sortir de défendre l'intégrité de ce service en production.
Et donc ça a été naturel de voir ce que ça a fait de la surface de SRE,
comme opposed à la surface de développement.
Donc, depuis que j'ai été en SRE pour trop longtemps,
ce que ça veut dire ne pas être en production,
c'est que l'opposé de ce service que vous avez fait en production en production ?
Dans mes dernières jours, quand je suis encore un jeune enfant et en collège,
j'étais juste intéressé en codé, en fait, en pratique de codé.
Donc j'ai travaillé sur un interprète en SRE en bel abe,
et nous avons eu quelques clients, mais c'était surtout la joie de la hackée sur un piece de softwares.
Je pense que mon père était plus en théorique et en académique,
et il a dit que vous allez être en train de faire ce travail,
pourquoi pas essayer de théorique ?
Et donc j'ai fait ça, j'ai wentre à Edinburgh et faisais un PhD
dans un area de théorique de computer science,
et c'est plus logique que de la science de computer,
qui s'appelle type 3, et ce que j'ai trouvé,
c'était fascinant intellectuellement,
et même comme j'étais compulsive sur ça,
mais je n'ai pas fini de croire sur les résultats.
Et donc je suis revenu à travailler sur la pratique,
et juste la hackée, clairement, n'était pas suffisante.
J'ai besoin d'une sorte d'intellectualité,
comme des principes architectes pour appeler ça aussi.
La théorie, comme je l'ai dit, est compétuelle intellectuellement,
mais j'ai ressenti la divorce de la pratique actuelle,
et de avoir des utilisateurs et de croire sur le service.
J'ai fui à AT&T pour un moment,
et on a construit un service de voice over IP,
ce qui était vraiment bien, c'était un service de voice over IP,
mais c'était un service beaucoup plus petit que ce que nous ferions pour appeler sur Google.
Et j'ai aimé ça.
C'était bien, c'était bien d'être associé à quelque chose
qui était vraiment, vous savez,
des gens l'avant, vous pouvez voir que les gens l'avaient appellé.
Oui, juste ajouter des utilisateurs,
ça fait que c'est beaucoup plus intéressant, je pense, bien sûr.
Oui, absolument.
Cool.
Donc, maintenant que vous êtes dans le SRE,
et que vous avez été ici pour plus de plus,
que vous trouvez que vous avez transféré bien
de votre très distingué carrière en software,
quelles sont les bêtes du service ?
Quelle est la question ?
Tout, ou quelques-uns, ou quelque part en-detout ?
Je pense que je vais encore répondre à cette question.
J'ai été dans ma vie pour trois mois.
Je pense que je peux apprendre beaucoup plus sur cette question.
Je pense que je peux donner des morceaux de l'answer,
mais je pense qu'il y a beaucoup plus de choses à apprendre
sur ce que l'answer est.
Je pense que la autre pièce que nous n'avons pas parlé de
c'est que, aussi, quand vous aviez évolué dans votre carrière,
vous pouvez avoir des plus de rôles de leadership.
Et donc, je l'ai aussi trouvé
que j'ai vraiment apprécié le développement de la people
sur mes équipes.
Et donc, cette pièce, je pense,
se transforce à chaque place.
Donc, cette pièce, clairement,
je dois toujours...
Vous savez, dans la rôle, je pense que vous avez besoin
de respect des gens que vous êtes travaillant avec,
mais en même temps, vous pouvez appeler vos expériences
à ce qu'ils vont en ce qui est possible
et aider les gens à développer des nouvelles skills
dans ces positions.
Donc, clairement, c'est un important pièce
de ce que j'ai été appris à l'organisation
de faire.
Mais je pense que si nous parlons de techniques,
c'est plus que vous avez appris
à acquérir des skills de la technologie
dans le côté de développement.
Peut-être que je peux prendre la saison de cette pièce.

C'est comme si vous deveniez un type de tech,
vous commencez à vous rappeler
votre comportement de producteur,
votre production.
Et vous avez besoin de gens que vous soyez
appris à des bons principes
pour faire surement que la surface
se réunit bien.
Et vous avez vécu à apprendre
ce que les choses sont qui font ça.
C'est peut-être un petit oeil de choc
qui vient d'abord de votre intérêt de SRE
ou de votre intérêt actual.
C'est ici.
Le intérêt de votre intérêt, je ne sais pas.
Donc, avant que vous soyez en SRE à Google,
vous avez travaillé sur des autres choses
dans Google.
Il y a un système en particulier
qui a le plus petit code-name de la ligne,
je me suis demandé si vous pouvez nous raconter.
Donc, c'était D.
C'est comme la lettre D, c'est ça.
C'est la lettre D, oui.
Donc, c'est le service network attaché
qui servit à...
Le service network attaché à la source de la disc,
donc, ça servit à la source local
de la disc à la restée de la nette Google.
Donc, à votre familiarity avec
travailler sur D, je crois que vous êtes le
tech lead dans la team D,
avez-vous ensuite,
vous avez juste bougé à la place de SRE
ou avez-vous trouvé que les choses
étaient transferables à d'autres teams
ou comment vous voyez
cette expérience de transferir dans des différents rôles?
Non, je n'ai pas été direct.
Je suis le tech lead de D pour 7 ans.
Et on travaille d'ailleurs
comme le tech lead
d'une certaine part d'une service de service low-level,
je dirais que vous avez
un SRE qui apporte le service,
et comme le tech lead de dev,
je crois que vous avez
un grand visage à l'aise
dans le service.
Et après ça,
à un moment donné,
j'avais des objectifs sur
ce que j'ai voulu acheter avec D.
Et je crois qu'on a acheté
des objectifs et ça a été clair
que je pouvais aller à une position différente.
Comme je l'ai dit,
j'étais impatient d'en faire un projet.
Après, j'ai appris
des skills certaines.
J'ai fait un projet différent.
Je pense que je vais juste vous demander
que vous avez trouvé que
d'être un expert dans un domaine
particulièrement dans Google,
c'est ce D-tour,
ce service de service.
Vous avez trouvé que Pigeon vous a pas trouvé
quand vous avez appris à SRE
ou que ça n'a pas vraiment été un problème?
Vous avez trouvé que vos skills
étaient transferables
pour peut-être
beaucoup de choses différentes?
Je crois que le truc spécifique
est que j'ai appris à un produit différent,
mais c'était un produit de D
qui était un produit de D,
donc c'est fondamental pour Google,
mais ça ne s'interacte
avec beaucoup de services de service de haut niveau
que Google a offert,
comme GCE
ou GCS,
ou même YouTube.
C'est le basis pour ces choses,
mais ça n'a pas beaucoup de
direct interaction avec les compagnies de la haute
de la construction des systèmes.
En un sens,
les skills techniques,
je pense que les services architecturaux
des services ne sont pas broadly
appris, mais je pense que les techniques
que vous avez appris
sur l'isolation,
et la planification de capacité,
et toutes ces choses,
elles sont vraiment rélevantes.
Je vous ai dit quelques phrases
qui sont un delight
pour l'éloignage, l'isolation et la planification de capacité.
Et la santé,
les concepts et les pratiques
de la SRE,
je sais que beaucoup de votre appris
et beaucoup de la SRE
sont en train de faire le travail.
Est-ce que les concepts et les pratiques
que vous recommandiez
pour un étudiant
de la SRE,
n'est pas formel
à l'université?
Je pense que c'est une question
très grande. Je ne suis pas
pas assez
très proche de la SRE,
donc je ne sais pas
si les gens
sont en train de faire ces choses.
Je sais
que, par l'exercice
de la software, les gens ont vraiment
des pratiques
de la code reviews
et de l'unité test,
il n'y a pas de focus sur ça,
il y a un focus sur
comment vous avez écrit un algorithme
qui se défendre de ce problème
ou ce qui est complexité,
et je ne vois plus de focus
sur l'éginéryment de la SRE.
Je pense que c'est
plus similaire pour les pratiques de la SRE.
Où vous en avez parlé
de la planification de capacité
dans la SRE?
Oui.
Je sais que,
par l'exercice de la SRE,
tout ce que j'ai compris
sur la planification de capacité
a été fait pendant que j'ai été
en train de faire la planification de capacité
ou en train de faire des issues
sur le service de production.
Tout de suite.
Qu'est-ce que vous avez
envisé pour la SRE?
Si il y avait un cours
sur la SRE,
que sont-ils les choses de la salle
que vous espérez voir dans le cours?
C'est une question très grande.
Je pense que les choses que nous avons
évoquées sont particulièrement importantes.
Oui, absolument.
L'éginéryment de la SRE
peut être un peu plus...
Vous pouvez certainement spécialiser
dans des dimensions.
Les algorithmes pour l'éginéryment de la SRE
et la salle de la SRE
et la salle de la SRE
sont intéressantes
et assez différentes.
Je pense que vous pouvez étudier
toutes ces choses.
Je pense que la capacité
est...
Je pense que le lieu où je suis
est dans les interviews.
Je fais des interviews sur Google
comme beaucoup de gens.
Je pense que les questions
que vous avez demandées
depuis les années 10,
sont très difficiles pour les gens.
Je pense que le fait que nous avons
évoqué la salle
a donné des gens de plus de familiarity
avec les choses que nous avons évoquées
dans Google, mais que nous n'avons pas
réellement pas vu.
Je pense que nous avons des ressources
maintenant.
Je ne pense pas que Kafka existait
ou que personne ne l'a pas évoqué.
Quand je commence à demander
ces questions,
les gens vont dire, je vais utiliser Kafka.
Et vous vous dites, ok, maintenant,
comment je vais faire plus spécifique?
Je me sens
probablement que les pratiques externes
sont en train de se battre sur les choses
que nous avons faites dans la société.
Je me demande
de ce genre de topic.
Quand il s'agit de quelque chose comme
Kafka ou PubSub,
c'est un peu
une pièce de infrastructure
que si vous n'avez pas tout le temps
et que vous n'avez pas besoin de ça,
ça serve pour connecter
les autres choses.
Je me demande
si c'est assez
de savoir la existence de ce produit
et les nobles qui sont sur la surface
ou est-ce
important pour les SRE
notamment, les listeners
de ce podcast qui travaillent
sur SRE
sur la cloud, pas nécessairement
dans Google, pour savoir
les gouttes du système.
Qu'est-ce qui se passe
dans un système de message passage?
Est-ce que le produit est
si mûrant que la abstraction est
assez bonne ou est-ce important
de savoir comment ça fonctionne?
Je me souviens
que vous êtes des SREs aussi,
donc on peut avoir une conversation.
Mais je me souviens
que vous ne pouvez pas
juste prendre le jeu et que ça va travailler.
Si nous étions en contexte académique,
vous pouvez imaginer
que un professeur
pourrait, pour exemple,
avoir un bunch de tests
de workloads qui exibent
différentes comportements et disant
comment proposer une configuration
qui est bonne pour maximiser
l'exploitation ou minimiser
la latence pour les cas de suivi
ou tout le monde.
Vous pouvez demander aux gens
d'en comprendre que c'est bien enough
pour que l'on puisse le détenir
pour ces comportements.
Je pense que c'est une bonne façon de le mettre.
J'ai eu un intéressant conversation
avec des jeunes
qui ont parlé de la façon
de sortir un set de choses
et ils n'ont pas l'idée de ce que je disais.
J'ai parlé de la façon de la sortation
de la sortation de l'article,
de la sortation de l'article, de la sortation de l'article
et de les méthodes différentes
qui resultent de différents outils.
Je pense que ça aide
à halluciner ce que je fais
et c'est que
si vous voulez savoir les outils de la construction
d'un système dans les lois
et que vous avez un état de
des outils de la construction
c'est important
de se faire comprendre
ce que c'est
ce que c'est
Vous pensez
à ces idées de la science
d'article
de la la meilleure
chose
de la même manière
on parle de la manière de la la la
et d'en comprendre les caractéristiques
à un niveau conceptuel
à l'aide de
les outils de la construction
à l'aide de la la la
je pense que c'est
un état de la science d'article
qui est encore relevant
dans les essais de la science d'article
je pense que
oui, probablement, mais
avez-vous vu des cas où
les gens n'ont pas de la science d'article
de la la la
et c'est complètement bon
vous n'avez pas de réponse
ça peut être
je pense que
la science d'article
doit être
peut-être pas essentielle
mais certainement, c'est très utile
j'imagine quelqu'un qui est venu
avec un background mathématique
peut-être
je préfère un background en engineering
parce que
je pense que vous pouvez essayer de boire les problèmes
trop trop et d'abstracter les choses importantes
si vous êtes plus attentionnés par les mathématiques
plutôt que l'engineering
je ne veux pas que les gens qui ne
n'ont pas de background de la science d'article
pensent que c'est encore
additivement
quand il s'agit de SRE
oui
basé sur la conversation que nous avons
c'est comme
vous vous assortez que c'est
important pour les SREs
d'être invités comme des serviciers
plutôt que d'encoder les SREs
pour que les best practices
soient en plateforme
ou en service
les SREs doivent aussi s'occuper
d'assurer que les choses continuent de travailler
et que ces choses
soient en capacité de planer
d'understand des cas de use
et de la même manière
je pense que l'une des pièces que nous avons
parlé de
est que, à moins que Google, il y a
deux classes de SREs
il y a un qui est
plus
systématiquement
et il y a un qui est plus
en matière d'engineering
et donc clairement pour la matière
d'engineering
je pense que
avoir un background de la science d'article
est essentiel
mais je crois que avec le plus de
les systèmes
il sera encore extrêmement
utile mais je ne suis pas sûr
que c'est absolument critique
ok, nous avons quelques questions
que nous essayons de poser
pour être un peu consistants
pour avoir des questions horizontales
donc vous pouvez toujours passer
si c'est significatif
mais qu'est-ce qu'un changement
impactuel que vous avez fait
ou que vous avez été un partage
de quelle est l'histoire
que vous avez à l'impact
que vous êtes particulièrement
prêts à le faire
je pense que c'est le projet
que j'ai juste dépassé
donc après je suis terminé de être
tech lead de D, je suis allé être
tech lead de Chubby
Chubby est un service
distribué pour la logique
donc en fait
dans le data center vous avez beaucoup de machines
qui tentent de faire un certain nombre de travail
et vous voulez garantir
que vous pouvez diviser le travail
mais que quand vous avez divisé le travail
seulement un
task est en train de faire un certain
piece pour que vous ne vous obteniez
des conflits où ils tentent de faire
la même chose à deux fois
et peut-être de créer des données
donc c'est le service basic que Chubby
donne
et Chubby a été construit
en Google 20 ans
et Google était une très différente
compagnie d'aujourd'hui
donc c'était vraiment, il y avait
quelques services énormes
et un peu d'autres choses mais
la compagnie de corps était
websearch, Gmail
Youtube
ces très grands services
et ces grands services
ont l'obligation
d'avoir un endroit
où ils ont un grand footprint
et que c'est bon pour eux pour les autres places
et si vous avez un fail
dans un endroit
vous pouvez simplement dédire
et dire que vous ne vous envoiez plus de trafic
vous envoiez le reste de l'univers et ce service
reste parfaitement, vous pouvez continuer
à servir sans des conséquences réelles
bien sûr, c'est l'idéalisation
mais on a été assez proche
comme Google a commencé
à bouger vers le cloud
les clients de cloud ne veulent pas
qu'ils puissent
construire ce grand footprint
si vous êtes une petite compagnie
ou même une grande compagnie
ce n'est pas possible de avoir les workloads que Google a
donc ils veulent
réduire leurs costs
par rester en un endroit
ou peut-être deux, mais cette architecture
ne fonctionne pas pour eux
et donc, tout de suite, ce que nous avons fait
pendant l'économie, c'est de
changer l'architecture de la Tubby
pour que cela mette la nécessité
d'appuyer des services regionalisés
et de l'envers de la model de la reliabilité
qu'ils ont besoin
plutôt que de l'envers de la model de la reliabilité
qui fonctionne pour l'envers de Google
et il y a beaucoup de components pour avoir fait ça
et c'était extrêmement intéressant
presque comme un exercice de marketing
mais aussi, bien sûr, comme un
exercice de technique
C'est cool, c'est un coup de la mienne
c'est
l'understand des complexities
des domaines de défait
sur le client de l'équipe
et de faire surement que l'infrastructure
nous permet de faire ça, c'est assez cool
Oui, je suis curieux aussi
et c'est un shift
de ce que nous avons juste discuté
Je suis vraiment curieux
de voir que les
jeunes audiences, les jeunes gens
viennent de
faire la pratique de l'engineering de la software
et de l'envers de la reliabilité
Quelles sortes de guidance
vous donner pour que
ils puissent improvement de l'internet
comme nous l'avons aujourd'hui
Il y a deux moyens que nous pouvons voir
Qu'est-ce que vous diriez
aux jeunes ou aux personnes qui sont
en train d'embarquer un travail sur l'internet
et aussi, qu'est-ce que
nous pouvons généralement improving de l'internet ?
Oui, je suis sûr qu'il y a beaucoup de dimensions
pour cette question
mais les choses que je me sens
sortant de
directement sur le point de vue de mon expérience
c'est que
je pense que ça pourrait se voir de l'extérieur
comme l'internet est fait
peut-être, peut-être que vous avez cette perception
Mais à l'intérieur de Google, c'est très clair
que les choses sont toujours changées
et donc, il y a un énorme nombre de travail
à faire et très intéressantes choses
à penser sur
et il y a un impact clair de ce qui se passe là-bas
Si vous êtes excitées à
parler de l'A.I.
et de l'acheter machine,
Google fait
des choses amusantes
pour soutenir ça dans un meilleur moyen
et c'est vraiment intéressant
à travers la banque
de intérêts potentiels
donc, d'une manière
de pouvoir l'infrastructure
à travers les modèles
qui soutiennent ces choses
et qui sont plus abstractes
pour ça, oui ?
Oui, la banque de l'infrastructure est vraiment hot
non pas intended
c'est très bien sur les minds
de, je pense, beaucoup de gens
surtout
les jeunes folk qui sont
venus dans un monde où il y a
une landscape très différente
pour la consumption de pouvoir
et je pense aussi, une awareness
de comment l'intention de la banque
de l'intention de nos
petit computers de deceptif
parce que nous avons des ordres
de devices que nous pouvons tenir en main
et, encore plus, ces smartphones
et des ordres similaires
il y a un immense nombre de
puissance de pouvoir en l'air
Oui, donc je pense que
l'un des projets, c'est un long temps
d'avant, mais je faisais
un changement relativement simple
dans quelques semaines en table
qui je travaillais avant D
et ça a sauvé
un nombre de power, qui a
fait ressentir que c'était un accomplissement
pour pouvoir faire relativement
des changements de software
qui change
comment le nombre de
Google est en train de payer
et c'est possible
d'avoir cet impact, bien sûr
d'un développement et d'un site de SRE
Oui, un des
mes favorisants
que j'ai appris en travaillant en Google
c'est que un petit % de la large
est encore une large
donc quand vous pouvez faire un petit
peu d'improvement
pour un grand système, vous pouvez avoir
des impacts dromatiques
ça peut travailler dans les deux directions
mais quand vous parlez de la
cost ou de la sauvage d'énergie
dans la scale globale, c'est que
très bientôt vous parlez de mes vrais numéros
L'alternative de votre vie, c'est que
si vous faites des choses plus efficaces, ça veut dire que
les gens utilisent les plus de la main
Induce demand
Exactement
Donc une grande picture, vous voyez
que vous avez des futures
que le futurisme a eu lieu
c'est bien que la société
utilise ces computers
Est-ce que c'est réel?
Est-ce que nous pouvons dépendre de eux?
Et est-ce que nous devons dépendre de eux plus?
Je pense que je vais vous remercier
sur la question de l'AI en particulier
mais si nous parlons de la mobilisation
de l'Ontario, ça me sentinait
inévitable
Il y a des efficiencies substantially
pour beaucoup de companies
et donc ils vont juste le faire
en regardant de ce que nous pensons
et ça devrait
être plus...
avec le caveat que je vous ai donné
que peut-être ils vont faire plus
parce que c'est plus efficace pour eux
mais c'est plus efficace pour eux
En termes de la reliabilité
je pense que nous ne pouvons pas garantir
que chaque company
va faire en termes de continuer
d'honneur de la commitment qu'on a
mais je peux vraiment dire
que nous avons tous un fort commitment
pour la reliabilité de nos systèmes
et il y a un grand nombre d'investissements
pour faire sure que ces choses sont reliables
Oui, c'était magnifique
Merci pour votre temps, c'était une
discussion intéressante
C'est un bon moyen de nous aider
à nous offrir notre nouvelle saison de la podcast
Je vous remercie
Salim, comment avez-vous? Quels équipes?
Je n'ai pas d'équipes
à partager
Je peux vous remercier
le fait que la réaction de la vieille
n'est pas une stratégie
et je pense que pour les engineers
et les gens avec le background de la CES
c'est très clair que nous pouvons
approcher des problèmes d'engineering
méthodiquement et avec un grand nombre de disciplines
mais mon temps en SRE
est aussi un souvenir
que no matter combien nous planissons
nos systèmes vont toujours
trouver un nouveau comportement chaotique
pour nous faire sortir
Oui, je crois
Bon, Salim et Helph, merci
pour tous les deux aujourd'hui
C'était un bon talk
Et comme toujours,
fais le silence de la page
et la flow de queries
Merci beaucoup
Merci
Merci

Les infos glanées

Je suis une fonctionnalité encore en dévelopement

Signaler une erreur

GoogleSREProdcast

SRE Prodcast brings Google's experience with Site Reliability Engineering together with special guests and exciting topics to discuss the present and future of reliable production engineering!
Tags
Card title

Lien du podcast

[{'term': 'Technology', 'label': None, 'scheme': 'http://www.itunes.com/'}]

Go somewhere