
The One With Steph Hippo and Observability
Durée: 33m32s
Date de sortie: 16/12/2025
In this episode, Steph Hippo, Platform Engineering Director at Honeycomb, joins The Prodcast to discuss AI and SRE.
Steph explains how observability helps us understand complex systems from their outputs, and provides a foundation for SRE to respond to system problems. This episode explains how AI and observability build a self-reinforcing loop.
We also discuss how AI can detect and respond to certain classes of incidents, leading to self-healing systems and allowing SREs to focus on novel and interesting problems. She advises small businesses adopting AI to learn from others' mistakes (post-mortems) and to commit time and budget to experimentation.
Bienvenue à la fête de la saison 5.
Google s'appelle le podcast de l'engineering et le software de production.
Cette saison nous continuons notre thème de « des amis et des trends ».
C'est tout pour ce qui est en train de se faire dans le space de la SRE,
de la nouvelle technologie pour les processus modernisés.
Et bien sûr, la partie plus importante est la fête que nous avons faite à l'album.
Donc, bonne écoute et peut-être que tous vos incidents soient nobles.
Vous m'avez mis la page sur le niveau de la salle.
Salut tout le monde et bienvenue à la fête de la saison 5.
Je suis Matt Siegler et je suis aujourd'hui en train de me joindre à la saison 5 de Florian Rathkeber.
Je voudrais maintenant accueillir notre guest, Steph Hippo, de Honeycomb.
Steph, dites-vous aux listeners un peu de vous-même et de ce que Honeycomb fait.
Salut, je suis Steph Hippo.
Je suis le directeur de la plateforme d'engineering à Honeycomb,
qui est un outil d'observité pour les systèmes de compétition.
Je suis en train de faire des systèmes de compétition.
Je suis dans la production de Google, 7,5 ans,
et j'ai l'impression de la vie à l'extérieur.
Mais c'est vraiment sympa de venir ici et parler avec vous.
Comment avez-vous été au site de Google avec Honeycomb ?
Je suis déjà dans la plateforme de Honeycomb, mais je suis en train de rester sur Google en mai 23.
Dépêchez-vous un peu plus sur la stack de Honeycomb et ce que vous faites là-bas.
Oui.
Pour Honeycomb, j'ai d'ailleurs été dans la plateforme de l'extérieur.
Je suis responsable de nos trois équipes.
Un peu de nos équipes d'envoi.
On a un équipe d'envoi en avant,
qui est vraiment juste pour aider les équipes,
les autres équipes de développeurs,
et qui sont plus en train de se déployer.
C'est là que nous nous sommes en train de voir
beaucoup de l'avis de l'A.I.
qui viennent jouer pour nous et de voir
comment nous pouvons faire sure que nous sommes
construits pour la qualité que nous voulons
et que nous pouvons pouvoir imposer tous ces équipes
pour réutiliser les mêmes compétences pour le système de design
et de la technologie de la construction.
Et ça a été beaucoup de fun.
Nous avons fait notre propre database.
Vous pouvez le lire sur le blog, si vous voulez.
Il y a le truc qui se trouve.
Et c'est là que Honeycomb est capable de faire
beaucoup de données de la observabilité,
de la math et des features que vous pouvez voir.
Et oui, c'est l'insertion.
Oui, ça fait.
En fait, je pense que j'ai entendu vous dire quelque chose
sur la observabilité.
C'est une grande phrase.
Elle se termine en plein de cercles.
Mais je pense que j'aimerais vous entendre
un peu plus spécifique sur ce que ça veut dire
et parler de ce que Honeycomb offre.
Et quelque chose d'un peu plus en décembre
sur ce que ça devrait dire à nous,
surtout en production.
Oui, c'est un peu de la observabilité.
C'est de pouvoir observer et comprendre les systèmes complexes
basé sur ce que vous pouvez voir sur les outils.
Donc, vous pouvez instrumenter le type de data
que vous voulez pouvoir contrôler,
peut-être des différents événements
comme ils se sont apportés à votre système.
Et puis, en faisant des choses en production,
vous pouvez regarder un peu de ceci
en regardant les problèmes dans le système.
Si vous avez beaucoup d'usages,
peut-être que vous pouvez l'éloigner sur ça.
Et donc, c'est vraiment à la foundation
de la SRE,
de pouvoir comprendre ce qui se passe
dans vos systèmes et de répondre à ça
pour que vous puissiez délivrer
le meilleur expérience de l'usage possible.
C'est une très bonne définition.
Merci, Steph, pour nous mettre à la stage.
Donc, cette année de la podcast de SRE,
nous continuons notre thème de la semaine 4,
qui est « Friends and Trends ».
Et bien, évidemment, vous êtes un ami observable,
mais on ne peut pas, je pense,
on ne peut pas évoquer
de tomber dans des mots de bus
qui se sont allés partout.
Donc, dans votre avis,
comment peut-on influencer l'abservabilité de l'A.I.
et vice-versa?
Oui, ils sont baisis pour une raison,
donc, quand vous avez vu plus de parler
de l'abservabilité de l'A.I.
ou de la façon dont les différents entreprises
adoptent l'abservabilité de l'A.I.
à la tête de toutes ces approches,
c'est vraiment un contexte de data riche.
Et c'est ce qui m'a aidé à faire l'abservabilité de l'A.I.
et qui aide aux bonnes A.I.
à se dévouer de mauvaises A.I.s.
Et si les bons et les mauvais en ce contexte
sont aidables vers les non-humbles.
Et donc, ce que nous avons vu beaucoup
avec l'A.I. et l'abservabilité
est qu'ils se dévouent en un autre.
Le plus que vous utilisez l'A.I.,
c'est un système complexe
parce que vous êtes regardant des choses
de plus en plus probabilistes
plutôt que de plus en déterministes.
C'est en introduitre des incertitudes.
Il y a des places appropriées
pour utiliser ça et des places inappropriées.
Et je pense que, comme une industrie,
tout le monde est en train de se sentir
à quel point il faut trouver l'A.I.
pour être particulièrement bon à la solution de problèmes
à un moment de même.
En même temps,
l'A.I. est plus rapide
et mieux pouvoir
tenir plus de contexte.
comme vous êtes en train de faire des systèmes A.I.,
vous avez aussi plus d'abservabilité
ou je dirais plus de refinement de l'abservabilité
pour comprendre
quel effet cela a envers votre système.
Donc, j'ai vu l'A.I.
et l'abservabilité
être un peu de self-reinforcé
en retour à l'un ou l'autre.
Donc, l'abservabilité,
ce qui vous donne confiance dans votre A.I.
et votre A.I.
peut aussi vous aider à naviguer
votre observabilité
et comprendre votre système.
À un point de contraste,
vous pouvez nous expliquer
peut-être que nous n'avons pas trop longtemps
quand ces Insights n'étaient pas
si disponibles.
Qu'est-ce que nous faisons
juste avant
quand nous étions juste en utilisant
la mathèque planale ?
C'est tout de la mathèque en fait,
mais
la mathèque planale,
je pense que
quand je regarde les teams SRE
que j'ai managé à Google,
la chose que nous avons toujours
étendue à nous
était que le système noyére
et le système noyére.
En tant que temps,
comme ça,
dans la histoire de la computer,
nous pouvons mettre le stack
dans un niveau d'abstraction
avec chaque technologie.
Je me souviens de mes systèmes
de l'école et de nous dire
comment il a été utilisé
pour artistiquement installer
les systèmes de opérance
et ça serait 30 jours
et ils l'ont fait de cette façon.
C'est quelque chose
qu'on a passés
de ces jours.
Je pense que nous allons voir
les mêmes choses avec l'A.I.
Si vous êtes en train de voir
le meilleur exemple que j'utilise,
comment vous
vous avez
créé un SRE en juin ?
Quand vous vous êtes en train de voir un SRE,
vous devez voir des diagrams du système,
les connaissances de des dashboards
peut-être spécifiques
que nous avons pu créer.
Hey, c'est là où vous trouvez les loges,
qui sont séparées
de
les traces,
séparées de ces méchants
que nous avons ici.
Ils commencent à construire
leur picture
en basant
le knowledge de la team
et de la compétition
de ce système
avec beaucoup de dégâts.
Je pense que c'est valable
d'un perspective de la team
et on peut parler de cela plus tard.
Mais
quand vous êtes en train de
un nouveau SRE aujourd'hui,
il y a beaucoup plus
disponibles pour les tools
pour les baignées.
Donc
si vous pourriez me mettre
dans un nouveau système aujourd'hui,
je voudrais savoir
où est-ce que les problématiques
sont lesquelles les graphes
sont considérées les plus
est-ce qu'il y a
des trends de trottin
qui se sont dit à la fois
que vous me montrez vos SLOs
et ce sont les choses
que nous nous sommes
en train de voir que l'AI
peut aider à les mettre
à la frontière.
Et si vous êtes
un SRE
qui peut-être ne sait pas
encore
les questions correctes
pour demander,
l'AI s'est aidée
de les mettre
plus vers la frontière.
Je pense que c'est aussi
plus drôle de comparer.
Je me souviens même quand je
était un SRE
que j'ai été paré
avec un SRE
qui était nouveau à notre équipe
mais qui a été à Google
pendant longtemps.
Et c'était comme
nous commençons
à avoir le rise
d'un app Web
de tools
pour comprendre le SRE.
Et il m'a fait croire
que je suis allé
pour les tools web
et qu'il était
la mémoire du commando
que il allait
faire pour obtenir
la même information
qu'on avait fait.
C'est vrai.
Et oui, on a juste rassemblé.
Nous étions tous
en prenant la même réponse
dans des différentes manières
et que nous n'avions pas
d'avoir pensé
pour atteindre
l'autre tool que l'on a utilisé.
Et donc,
je pense que l'AI
sera un autre layer de ça.
Oui, totalement.
Donc,
merci de partager
votre expérience.
Si vous
essayez de vous mettre
dans les chaussures
de un
nouveau SRE
qui est nouveau à l'époque,
comme à l'époque
de votre expérience
personnelle
à l'honneur
ou
aussi de ce que vous imaginez
être comme ça.
Parce que
vous avez aussi
une réputation
de ne pas
le faire
de l'engagement
de l'engagement
de l'engineering
comme l'engagement
et ce n'est pas.
Donc,
ce que l'AI a changé
pour l'expérience
de la SRE.
Je pense que
il y a des valeurs
pour demander
aux membres de votre équipe
directement.
C'est comment
vous étiez un rapport
et comment vous
ressentez la sécurité
de l'économie.
Qui va être quelqu'un
que je peux demander
peut-être
la question
d'un question
devant moi
que je serai
invérisable
ou
vous savez,
apprendre qui les experts
sont dans votre équipe
dans une particularité.
Et donc,
je ne pense pas
que ça va être
une AI
pour l'engagement
ou des choses comme ça.
Cette connecté humaine
est toujours
ce qui fait
les équipes de la SRE
en haut niveau
de sécurité de la santé.
Donc,
je vois
que les engineers
qui ont beaucoup de bénéfices
de l'AI
sont
en demandant des questions
meilleures.
Peut-être que vous demandez
aux questions
de l'AI
pour que vous puissiez
vous faire votre travail
quand vous allez
demander à l'homme.
Juliette Evans
a un bon set
de blogs
que j'ai toujours inclus
dans mon équipe
en cours d'engagement
en ce qui est le équipe
que je suis en train de faire.
C'est pour demander
de bonnes questions
et puis
faire sure
que
vous faites un bon use
de la période des gens.
Et donc,
comme une industrie
qui n'a pas toujours
été la plus bienvenue
de cette manière,
je vais vous Google
ça pour vous
ou RTFM
et
vous savez,
vous n'avez pas vraiment
de la question
pour vous.
Parce que
ce sont les
des buildings de sécurité
mais si je peux
demander à l'AI
Hey,
vous savez,
où je peux apprendre
ce partage de ce système?
Peut-être que vous pouvez me donner
des places pour commencer
et puis
vous savez,
ça peut me serrer
sur un autre ou un autre
ou un peu
comme un duc
pour que si je
les entends,
je vais le faire
avec l'AI pour moi.
Maintenant, je peux
se connecter avec l'homme
et je peux en faire
plus attention
sur où je veux
avoir la conversation.
Quand je 1er
j'ai été un grand TL
qui n'a pas été
à moi
à la session
avec moi 3 fois
une semaine
et le deal
était
que je n'avais pas
le temps.
Je devais
montrer des questions
et si je n'ai pas
le temps,
il va prendre
un sujet
et juste parler de ça.
Et donc
je pense
à ce que je vais
faire ceci
et je vais
peut-être
me dire
mon nom
et
aller
demander à l'AI
ceci
et puis
je vais
me remplir
les gaps
que vous n'avez pas
pu s'amener ensemble.
Donc,
je pense que ceci
est un engineering
qui peut être vraiment
powerful.
En l'application
de la création de la career,
vous avez des gaps
qui font
beaucoup de travail
comme emmisséur
spécialement
avec les engineers
vraiment
aide
ceux ingénieurs
à comprendre
ce qu'ils ont fait
et ce que le développement
semble.
Et je me suis toujours
en train de
que ce gap
est
vous savez
pouvoir
apprendre
les ingénieurs
à parler de leur travail.
Je suis un grand fan
de garder un journal
et de
faire les choses
dans la semaine
à semaine.
Pas juste pour
pouvoir
prouver
les choses
à la performance
de votre temps.
Mais
parce que cette réflexion
vous aide
à mieux
faire votre propre travail.
Donc,
je le fais encore
et
je peux prendre un
look
à mon
journal
à la fin de la semaine
et me dire
OK,
j'ai eu un ton de temps
sur
ce genre de travail.
Je pense que je dois
décider
un temps de déco
pour ça.
Ou je dois
demander
à quelqu'un
qui a plus
d'expérience
dans cet endroit
pour ce que je dois
faire
ou
je vois
le niveau
dans le gap
de la langue
parle de
ce genre de travail
d'une certaine
je pense que je ne pense que
que les opportunités
ne sont pas en place.
Donc,
je ne sais pas
si je vais
aimer
ou si je veux
ce niveau
de travail.
Peut-être que je peux
parler
à mon manager
sur
ce que
ces opportunités
devraient
Et je pense
qu'il y a beaucoup de
rues
pour
A.I.
et les
rubber
duquents
et de
voir
que c'est le travail
que j'ai
en currently
en train de
ce gap de la langue.
Et donc,
je vois
A.I.
là
qui aide
à
encore
faire
le travail
d'église
de l'engineering
de fondamentaux
mais
mais en faisant
un moyen
qui est
plus structuré
pour
aider les gens
à faire
les meilleures
utilisations
à ce moment
quand ils sont
face-à-face.
Je ne veux pas
voir
A.I.
prendre
l'humane
de
les équipes
ou le management.
Ça semble
que vous avez
vraiment
un
débat
assez
dans
le
développement
de la carrière
et
ce qui est le
profil
les
explications
et ce n'est pas
dans votre vue
que ça
a signifié
de changer
dans les années
dans la vie
de A.I.
Oui,
je pense que
ça va continuer
aussi.
Je pense que c'est
un temps
d'être
un
engineer
en essayant
de
either
l'entraîner
dans le
field
ou
des gens
qui sont
en train de
aller à la
bootcampes,
des choses comme ça
parce
qu'il y a beaucoup
de parler
dans l'industrie
maintenant
sur l'A.I.
de
remplacer
votre
engineer.
Et
je pense que
cette question
est pour
l'impos de la
headline.
Ce n'est pas
pour remplacer
les engineers
parce que
les engineers
ne se produisent
dans les fruits.
Donc
comme l'industrie
Dav
de
des
pump
Europe
On a parlé sur le bord, et comment je vais gérer cet état-là.
Et David a juste arrêté et a fait le coup de la marque.
Il a dit qu'il faut canceler ça.
Ça ne va pas faire beaucoup de choses.
Il a dit que je n'avais pas pensé à cet état-là.
Mais c'est la valeur de vous avoir une perspective à l'extérieur.
Oui, on ne peut pas faire ça.
Donc, à l'intérieur, j'ai eu mon projet cancelé, mais je n'ai pas fait le coup de la marque.
Donc, ça va changer.
Comment les choses qui nous ont donné à l'ingénieur junior, quand ils ont commencé,
je pense que les conseils traditionnels, comme les bugs de la starter,
je ne pense pas que ça va se passer.
Mais si nous sommes en train de prendre plus de ces tasks de backgrounds et des agents de l'AI,
en fait, vous n'avez pas de la force pour le fait de l'AI.
Il y a encore des valeurs pour que ce soit plus d'ingénieurs junior
qui ne sont pas des travail critiques.
C'est des bâtiments de contexte, des bâtiments pour le team.
Et il y a une valeur dans ce team d'ingénieurs.
Donc, vous n'avez pas de tout à l'AI.
Mais ça peut changer de type de travail.
Et je pense que vous allez voir plus de rites pour les ingénieurs junior.
Donc, je veux voir les ingénieurs junior parviendront avec l'AI et un ingénieur senior.
Mais je veux que vous, comme ingénieurs junior,
pensez à comment les ingénieurs senior utilisent l'AI.
Comment est le ingénieur senior en demandant des questions?
Et pourquoi sont-ils en train de répondre à ces questions?
Une des choses que j'ai vraiment aimé à mon temps à Google,
quand je suis allé à SRE,
tout le commande incident était toujours en ARC.
Et je pouvais, comme ingénieur,
juste suivre-en,
d'autres que mon team n'était pas responsable pour,
se dépasserait de la façon, mais je pouvais entendre et regarder.
Personne ne m'a pas pensé que je serais là.
Et je me suis regardé à,
Hey, like, what is this senior engineer looking at first?
Oh, I would not have thought to check that.
How do I learn how to go check that?
And kind of watch what they were doing and how they were talking.
And I just thought that was so valuable.
And so what I'm hoping we see with AI agents
and one of the things that we talk about at Honeycomb a lot,
instant management in particular,
it is a very social activity, right?
So when I, again, was an individual contributor,
you know, doing incident management,
you might have the incident dot going,
you've got your incident comms going out,
you're talking back and forth,
maybe with other teams that are affected,
trying to understand what could be going on.
I think you're going to see a lot of that and like shared AI agents now.
So if I can ask the AI like,
Hey, what are we seeing here?
It's really helpful if we can all just have the same view.
Honeycomb's fully distributed.
And so we don't have the shoulder surfing advantage
that you might get to some of the in-office work.
But the benefit of that is we're forced to build tools
that have good collaboration.
And so instead of just pasting around the same dashboard
link to everybody to open up,
can we all just be looking at the same AI agent that's saying,
Hey, look at this, look at this, look at this.
And being able to talk back and forth on what we're seeing,
whether we think something is relevant to what's happening
or might be a red herring.
And so again,
a lot of the social part of engineering,
I think is going to stay for a while.
It's how we interact and how we talk about it.
It's going to start changing the shape of it.
That was a really excellent walkthrough.
By the way, I very much appreciate how you've taken us
through the ecosystem of your technical staff.
The bigger picture of the incoming talent pool,
the maturity of your existing talent pool,
the fact that we're in a very disruptive time
with a very high rate of change of the influence of AI
on both the engineering stack you're using
as well as the skills of the people operating it
and responding to it.
So this is a strange word we're in right now.
We're both the tool kits and the people using the tools
are influenced by this as well.
So that's pretty fascinating and it sounds like you're handling
it.
I would say a fairly progressive and inclusive way,
which is I'm finding kind of fascinating.
I'd like you to talk a little bit about the business realities
that you're in and how maybe you're met with both either
resistance or inclusiveness of it.
Can you talk about some of the contrasts when you say,
hey, we're using some of these tools and how let's talk
about some of your client interactions or people are like
receptive or maybe even like not wanting that.
How's that gone?
Yeah.
When you say, we're doing this, it's great stuff and they're
like, whoa, we definitely don't want you to do it that way
or like cool.
Here's some opposing perspectives on this.
Pour sure.
I actually think one thing that's kind of unique about my view
point right now, I'm just coming back from four months
in maternity leave.
And so I did not do a ton of AI with my baby while I'm
leaving.
And so it turns out four months is a long time for AI to
you know, make some jumps and advancements.
And so I was getting updates from the team.
I saw some lunches going up, but I didn't really get to start
playing with some of what we had actually shipped until I got
back a couple weeks ago.
And so it was so cool to see, you know, back in May before
I went out, I had a lot of engineers that were like kind
of skeptical.
They're like, ah, this still isn't useful to me.
It's actually like more work to try it out than the benefit
that I'm getting.
I'm not seeing the ROI jump to now.
You know, some of the folks that were very skeptic and kind
of moved to either bargaining or acceptance and saying like,
okay, well, I get this now.
I'm seeing the value.
And we are seeing that with some of the customers too.
So we recently were hosting our holiday in San Francisco.
There's some great videos online about that and our AI team
did a LinkedIn takeover.
If you want to check out some of the things that they were
talking about, there's some great examples there of where
I think you can see.
This isn't necessarily unique to honeycomb, right?
But you can see where engineers are starting to hit a tipping
point of.
Okay, like I'm finding more places to do this.
I think engineers really crave nuance in these conversations.
A lot of the places where I was seeing engineers get frustrated
meaning some of these initial waves of AI is, you know,
they would see one thing promised in marketing, right?
And then they didn't really see that being useful for their
setup problems yet.
And part of it was like, okay, that marketing is actually,
you're not the target audience for that.
But for your AI tools and your engineering tools, like here
are the things you have to try.
It is a skill set to be able to get more value out of that.
And I think we're seeing customers figure it out too.
And so everyone's starting to have their light bulb moments.
As I mentioned earlier with observability and AI feeding
into each other.
Having that rich context about your own systems just lets you
unlock so, so much.
I'm not looking to go back to being an individual contributor,
but man, does it seem like it would be a lot of fun to, you know,
get to experience that sort of magic of understanding and just
asking AI like, hey, tell me about user adoption of these tools
or these features that we shipped and like I can pull up
and see how our rollout has been going, see how it's holding
with our error rates or our performance and our SLOs.
Like how does that correlate?
And so things that I'm really like used to have to build
those queries by hand.
AI is just like cool.
I got this.
And is this what you want?
And I can say, definitely close or like, okay, close enough.
And so that is making a big difference.
And so yeah, I think we'll see more and more of that kind of loop.
So if I have good observability, I have good understanding of my
systems and how to improve them.
And then as I continue to launch more features, AI or not,
if I'm doing the work of instrumenting that code, then it's
going to feed back into my observability.
And that's the kind of feedback loop that we're always looking
for an engineering, right?
To make things stronger.
And so I think that's what we're going to see.
And that's what customers are already starting to see, you know,
now with some of the tools and observability tools that hadn't come
elsewhere.
Yeah.
So you mentioned how much things have evolved during the time
you were out on parental.
So like internally, it probably come more like a new experience.
How do you stay on top of that super rapidly evolving field and
all the complexity that that it brings?
Yeah.
And like stay up to date and yeah, basically managing all that.
So again, it's just such a big part of engineering like still social.
So we want folks to be taking that time to experiment and try new things
and then just be really honest on what they're finding valuable
and not you don't have to come in and pretend that AI is bringing
all this value and solving all your problems.
If it's really frustrating, let's have a nuance conversation about
where it could be better.
And then how do we apply that to our product?
Honeycomb also dog food.
So ton we use honeycomb at honeycomb to understand honeycomb.
And again, having that feedback loop is just super helpful.
I ran a book club earlier this year on kind of ethics and computing
and we talked a lot about AI there.
Where do we feel the ethical line is for problems in our space?
And how are those going to continue to change and evolve
and like what are things that we want to keep an eye out for?
And so we love, you know, playing around with new tools
and especially as a platform org, I want to know
what's going to give us the biggest bang per buck.
Do we want to try this new tool?
Do we want to hire here to, you know, be able to explore more
on like building some of those features
into our software development lifecycle?
Like, where does it make sense?
And so kind of one thing that's always been true,
but that AI I think is still going to change how we do it
is you need to leave room for that innovation
and experimentation budget.
There's always going to be a deadline coming,
but you have to set aside that time for learning and exploring.
And if you don't, you'll actually fall behind
and you'll spend so much time polishing, you know,
something that's quickly falling out of date
because the rest of the industry is continuing to keep moving.
So that's how we approach it.
And, you know, try some things out.
If you hate it, tell us, but, you know, be an informator
and help make it better.
Speaking of being informed,
how would some of our listeners are really small
or quite small businesses who do want to adopt these tools?
They find themselves struggling to make sense of the chaos around them.
They want to innovate on their work.
How do you suggest they take an approach
that makes sense in their business
that isn't just throwing things at the wall
and do it in an intelligent way, incorporate into their practices?
Clearly, you're doing it in a way
that's really working for your industry practices.
What do you say to someone who wants to get started?
They want to do it in a sensible way.
They want to do it in a safe way.
Give some advice.
Again, I am an SRE at heart
and really feel like when I stumbled into SRE,
I found my people.
But the cheapest way to learn is from other people's mistakes.
In SRE, we call that postmortem culture.
And so being able to hear other people's success stories,
but also like there's so much value in like,
hey, this is what worked and then this is what didn't.
And here's what we would have done differently.
And so it's always, you always have to kind of filter
if advice is right for who you are,
where you are at the stage of company,
but go listen to what other people have done.
Read what they've done.
If they're publishing postmortems or retros,
you know, whatever it is, ask the AI.
You can see so much of what people wish they had thought of
or, oh, I would not have thought to approach that problem that way.
Much like when I said I was learning to be a junior SRE.
And so one of the things that has been at the forefront of my mind
lately in college, I actually worked at a startup called Explorers
that was purchased by IBM to become part of IBM Watson Health.
Actually, my mentor there just published a book on this.
It's the rise and fall of IBM Watson Health.
That is a postmortem and it is fine.
Okay, I'm a little biased because I would got to see it.
I had front row seats, but a lot of that talks about
where maybe AI back then had the over promise and under delivering.
Where did the tech fall short?
What could we have done better?
That's all relevant now and that Explorers was sold to IBM in 2015,
I think.
And so those are the kinds of things like go find those and they don't
all have to be books.
There's articles, there's podcasts, but you know, go listen and try things out.
Set a budget for yourself if you're worried about how much money or time
you might sink into it, but there's so much value in committing to a minimum.
And so I often when I'm doing career coaching or management saying like,
okay, you said you wanted to get better at this thing.
We've been talking about it for weeks.
I haven't seen progress.
What's going on?
Like, oh, well, something else always comes up.
Okay.
Well, carve the time out.
We're going to commit to it and then figure out what you need to be able to
stick to that commitment.
So I personally and somebody like I will not go work out unless
there's a social component to it.
I need my team members on my soccer team to expect me to be there.
It need me to be there or I will find reasons like I don't need to go do
that.
Same thing applies to anything that you're learning or experimenting with.
So do a book club or get a buddy or it's like, okay, we're both going to
sit on this video call for an hour every Friday and try this out and
see how far we get.
Those are the kinds of discipline that you're still going to need to be able
to adopt these tools.
There's nothing special about AI there.
That is just the skill and how you build skills.
And so don't be afraid to set that minimum limit.
So like, okay, I'm going to give myself a hundred dollars to go learn more
about this and commit this amount of time every week to doing that and using
hundred for a round number.
But again, do what works for you.
That's the kind of thing that will actually get your team moving and
experimenting with those things.
Just saying, instead of just saying, man, wouldn't it be cool if we spent
some time learning on that because you don't get the value out of just
wishing you did.
Yeah, there's so much actionable advice that you've given us.
I just wanted to pick up on something you said earlier that you're still
an SRE at heart and you mentioned, but like you touched on a bunch of sort
of SRE trades and sort of what you were quote unquote brought up with.
But now you're the director of platform engineering.
So which SRE trades characteristics have carried over into that role?
Yeah.
SRE is all about systems thinking, right?
And it's about curiosity.
And there's so much that translates both into management and into platform
engineering.
So engineers love making systems work better, whether that's people's
systems or technology systems.
They don't want to be woken up by a pager, right?
They want to make sure that they're moving towards something better,
something that needs less of their time so they can go spend more time on
the new interesting problems that are popping up.
And so that's how you design a platform, right?
Like, hey, this is a pain in the butt.
What could we do to make this better?
And then we know the tools and processes that help make things better.
So getting customer feedback, that is a postmortem, right?
Hey, we got feedback.
The user tried to do these three things and it didn't work.
Well, we actually can do those things, but they could not find the path in
our tool to do that.
So is the user holding it wrong or could we be doing a good job, right?
Of our UX.
And that's that kind of mindset that you have to bring to platform
engineering.
And that was always at the heart of SRE.
Do something, fail, learn, repeat.
And that cycle is actually what leads to that.
No one, I shouldn't say no one remembers little failures because I do.
I'm talking about them.
They helped me learn.
But what gets the headlines, right, is the success at the end from all
of those iterative cycles.
Yeah, totally agree.
Like incidents are unplanned investments, as they say, right?
Yes, exactly.
Well, we're just about out of time, but before we round up, I'd love to ask
you one more question.
Like you did stretch and think as big as you can.
What's something coming around the bend that you're really excited about?
Something you anticipate or really excited about something big, 5, 10, 15
years from now, that could impact your work or all of our work that you would
share something you hope for the future.
Anything?
Yeah, I'm going to think big.
I would love to get to a point where we're getting to types of incidents that
AI can detect and respond itself.
You know, kind of that's those self healing or self-mealing systems.
I think we're still a way off, but I think you will start to see certain
classes of incidents filter out first.
So, hey, if it's very easy to see, we did a roll out and something shot up.
Okay, move that back where it will be harder for the AI to catch up as
some of those slow burn incidents.
Or maybe you have a kind of time bomb bug in the code where you don't
actually see problems until you hit a certain point of scale.
That would be cool to see AI being able to solve that on its own.
I think you'll probably see proactive recommendations from AI first.
So say, hey, we saw this roll out.
You should check these things first, human.
Is this what you intended?
Maybe not.
But I think over time we'll get there and we'll get more classes of incidents
that kind of move up.
My team at Explorus back in the day was on quality automation and continuous delivery.
And we were trying to tighten that feedback loop there too.
And we always used to say, well, what are we going to do when we're done,
when we've automated all of it and it's good, right?
And the joke was we're going to go bowling.
So that's what we would say to each other.
All right, let's do this and then we can go bowling.
But there's always something next.
But I don't know, I think the AI, 10 years from now,
I think we'll all be bowling.
I love this, a future of all bowling.
Or at the very least, we're only left with the novel and interesting incidents, right?
Yes.
The rest, the AI takes care of for us.
Yeah.
More time for bowling, maybe I'll say that.
More time for bowling.
100.
100.
Well, thank you very much, Steph.
Florian, thank you for co-hosting.
This has been the podcast and farewell.
Thanks.
You've been listening to the podcast,
Google's podcast on site reliability engineering.
Visit us on the web at sre.google,
where you can find books, papers, workshops, videos and more about SRE.
This season is brought to you by our hosts,
Jordan Greenberg, Steve McGee, Florian Rathgever et Matt Siegler,
avec des contributions de beaucoup de SREs derrière les scènes.
La podcast est produite par Paul Gullimino et Salim Virgi.
La podcaste est télébotte par Javi Beltran et Jordan Greenberg.
Episode suivant:
Les infos glanées
GoogleSREProdcast
SRE Prodcast brings Google's experience with Site Reliability Engineering together with special guests and exciting topics to discuss the present and future of reliable production engineering!
Tags
The One With SLOs