The One With Data Centers and Peter Pellerzi

Durée: 36m28s

Date de sortie: 28/05/2025

This episode features guest, Peter Pellerzi (Distinguished Engineer, Google). Peter and the hosts, Matt Siegler and Steve McGhee, focus on the physical infrastructure side of SRE, discussing topics such as the scale of Google's data centers, handling incidents like power outages, testing and preparedness strategies, the use of AI for optimizing cooling plants, and more. Peter also emphasizes the importance of community support, proactive planning, and learning from real-world testing and incidents to ensure high availability and resilience in data center operations.

Salut tout le monde, bienvenue à la fête de la fête de la podcast.
Google est un podcast sur la compétition de l'engineering et de la production de la

Je suis votre host, Steve McGee.
Cette fête est de nos amis et de nos taux de la France.
C'est tout pour ce qui est venu dans le space de la SRE, de la nouvelle technologie, de
les processus modernisés.
Et bien sûr, la partie la plus importante est la fête que nous avons faite.
Alors, bonheur, écoute et souvenez, l'esprit n'est pas une stratégie.
Bienvenue, tout le monde, nous sommes revenus à la fête de la sonde de la
podcast sur Google.
Vous pouvez croire que la sonde de la sonde a été une longue période.
Je ne sais pas, peut-être que je suis juste moi.
Donc aujourd'hui, nous avons un nouveau guest, Pete Pallerzi, qui travaille avec
les choses physiques, comme les buildings et les machines et tout.
Et pas seulement les bits.
Donc, Pete, vous devez vous faire des atomes, je pense.
C'est vrai?
Je pense que c'est bien.
Vous devez être le premier à être le guest de cette liste.
Je dirais des electrons.
Electrons, OK, OK, cool.
Et le co-host aujourd'hui est Matt.
Bienvenue, Matt.
Merci.
C'est génial de vous faire ici.
C'est génial.
Donc, oui, nous avons fait un petit, un petit, un petit intro pour Pete.
Mais, mais, Pete, pourquoi ne vous introduisent pas vous-même?
Qui êtes-vous exactement?
Bien sûr.
Donc, par train, je suis un ingénieur électrique.
En fait, je suis un physiciste avant ça.
Mais je suis d'accord avec l'ingénieur électrique.
Et c'est où j'ai spent beaucoup de mon temps.
De faire des choses physiques, comme des stations grandes, des transformateurs.
On les installe et on fait le part physique de l'Université de Google.
Donc, à Google, je suis un ingénieur distingué, qui est un titre
qui est réel ici à Google.
Et je suis assigné à la team de construction.
Donc, nous avons différents groupes qui font la infrastructure physique.
Tons de gens très talentants.
Et je travaille avec la side de construction, le côté physique de ça.
Et notre team est responsable de la construction qui est faite par nos groupes de construction.
Et les plateformes et tout.
On va bien sûr que ce que nous faisons,
fonctionne pour la génération correcte de la technologie de service.
Et nous prenons ça dans le monde physique.
Nous sommes les uns qui poursons physiquement le concret,
même si c'est un petit part de notre travail.
Mais nous faisons les fondations, nous faisons les constructeurs,
nous faisons l'électro- et la infrastructure de la cool.
Nous faisons tous ces grands camps que vous voyez dans les sous-titres.
Donc, nous l'avons fait dans le monde physique.
Donnez-nous un sens de la scale des opérations que les gens...
Oui, elles ne peuvent pas être que si grande, c'est vrai.
Elles ne peuvent pas être que si grande.
La taille de ma maison, peut-être.
Peut-être une gymnasie.
Typicale data centre.
Small shed.
Small shed, non, pas assez.
C'est intéressant parce qu'il y a beaucoup de start-up
quand vous faites la première.
Donc, typiquement, ce que nous allons faire,
c'est que nous allons trouver une communauté qui met notre critère.
Et nous travaillons très très close avec les communautés
pour faire des choses,
pas seulement le data centre,
mais notre présentation est là pour longtemps.
Donc, nous ne sommes pas seulement allés en cours et en cours.
Nous travaillons avec les communautés,
nous travaillons avec les partenaires,
avec le maire et les gens environnementaux.
Nous sommes très communautés.
Et nous commençons à construire un campus.
Nous allons acheter 200, 300,
à plus de 1000 acres dans la communauté.
Et nous allons le développer responsablement.
Donc, vous voyez que notre entrée est dans le centre,
où vous vous en faites avec votre voiture et vous vous arrêtez à la station.
Et vous voyez que le premier building va en haut.
Et nous nous planchons toujours pour deux ou trois buildings.
Parce que vous voulez que vous ne faites pas quelque chose de bizarre sur le premier.
C'est comme si vous étiez dans le milieu de la pièce,
et que vous n'avez pas le droit de mettre le second building.
Donc, nous allons commencer à plancher le site
et nous allons construire notre premier building.
Un centre typique est à peu près
deux fields de football sur la fin.
Donc, si vous avez pris un field de football et un autre field de football,
vous vous en faites ensemble.
C'est le nombre de la vraie sœur pour l'un de nos centres de données.
Vous voyez tous les trucs autour de vous.
La infrastructure électrique qui appuie la puissance,
puis l'infrastructure de la cool qui remet la foule au bout du building.
La support de la génération, quand la puissance s'est mise en place,
une fois en un moment.
Et puis tous les autres structures,
places de manger, offices, entrées de la partie park, et tout ça.
Donc, avec respect à places de manger,
je pense que ça veut dire que vous avez des employés aussi.
Je pense que ce n'est pas un système fully autonome.
Ce système, quand il a été construit, je dirais,
bien sûr, c'est une zone quand vous l'avez construit et ce n'est pas probablement fait.
Mais quand il s'est opéré, quand vous avez des services en cours,
vous avez un petit gmail et un peu de AI ou quelque chose en cours dans le centre de données,
est-ce qu'il y a un ton de ants en cours,
comme en poussant les boutons sur les machines,
ou est-ce que c'est totalement autonome,
ou quelque part dans le milieu, ou ce qu'on parle ici ?
C'est quelque part dans le milieu.
Ok.
Évidemment, il y a toujours un push
pour faire les choses as automatives as possible.
Vous ne voulez pas aller en haut et en bas de la machine,
en regardant pour l'un qui n'a pas la lumière blanche.
Vous voulez savoir quel est le bon hard drive,
vous voulez savoir quel est le mauvais mémoire,
vous voulez savoir quel est le faible power supply, et ainsi.
Donc, ces processus de fixation de break
sont très automatisés,
sinon vous ne pouvez pas les tenir à l'avant.
Ça fait du sens.
Mais nous avons beaucoup de contingent sur le site.
Réveillez, nous nous concentrons toujours sur les machines,
ce qui est notre focus primaire.
Mais il y a beaucoup d'autres services.
Par exemple, la sécurité de 24 heures.
Les gens, la garderie, la landscape, les services de nourriture,
la réparation, les réparations, le général Maita, et ainsi.
Il y a beaucoup de contingent de gens
qui maintiennent un centre automatique automatique.
Ils sont en train de s'y arriver, mais ce n'est pas science-fiction.
Ce sont toujours des gens qui font des choses fixées.
Des choses fixées, ça m'a pris à penser
que les choses qui sont mis à l'aise
et les choses concernées,
nous parlons aussi de la manière
qu'elles se mangent quand elles sont mis à l'aise.
Qu'est-ce que l'incident que vous avez fait dans le centre de la date ?
Bien, en étant dans le centre de la date
pour un temps long,
et vous ne vous donnez pas de votre âge,
quand vous vous êtes sur un certain âge,
je dirais que 25 ans plus.
C'est un moyen de safe.
Mais dans mes 25 ans plus,
je travaillais ici, bien sûr,
et avant, je suis à IBM,
un grand centre de date.
Tout le centre de date
va avoir un certain sort de failure.
C'est juste
une property physique de l'univers.
Rien ne s'en va plus tard.
Les choses se brûlent, les choses se sont mis à l'aise.
Avec aucun...
n'y en a pas de faim,
c'est juste que les choses se brûlent.
Les tours de circuit de la date sont ouvertes,
parce que les unités de tour ne sont pas prises.
Et tout ça.
Toutes les choses se sont mis à l'aise.
Ce n'est pas vraiment ce qui différente
le succès de la société,
ou différencié par la société
pour être successeuse.
Les choses se brûlent partout.
C'est comme vous vous rendez avec le break.
C'est la clé.
C'est le différenciateur,
à moins ce que j'ai vu ici à Google.
Par exemple,
Saturday,
matin,
2h00,
parfaitement fin de l'évent,
beau, sonner,
quelque chose se passe.
Utilisation,
faillite.
Qui sait?
Un million de choses peuvent se faire.
Peux-tu penser à un exemple
d'un certaine failure
que vous pouvez partager avec nous?
Je sais que vous avez des histoires intéressantes.
Ah, je ne suis pas sûr de l'excité.
Mais par exemple,
quelques semaines auparavant,
bien documenté,
l'ensemble du pays de Chile
a perdu l'emballage.
Oh oui.
Oh oui.
C'était dans la news.
De nouveau,
nous n'avons pas de contrôle.
Absolument n'a pas de contrôle.
Oui.
On n'a pas de manière de faire
tout ce qu'on a.
Qui peut voir ça?
C'est juste qu'ils ont failli.
Ils ont eu un bon bout de choses.
Vous pouvez le lire dans la news,
pourquoi ils ont failli et tout.
Mais ça ne matters.
Nous n'avons pas expérimé un outage.
Ils disent, pourquoi pas?
Vous savez, c'est catastrophique.
Ok, holdez-vous.
Quand quelque chose ne va pas
sur ce proverbiel
à 2h00,
ou 1h00 au matin,
nous avons des protocoles très spécifiques
à tous nos centres de données.
Donc, par exemple,
nous avons ouvert un chanel
immédiatement,
un chanel commun,
entre quelqu'un qui veut se faire
mais généralement entre les managers de facilité,
les managers de service,
les managers de service, etc.
Mais ce qui s'est passé,
les gens automatiquement ont commencé à se dédialer.
On a eu l'emmergence d'une émergence sur notre email,
on va dédialer,
on va vous aider.
Donc,
nous n'avons jamais étranger quelqu'un
à un centre de données.
On dit, vous êtes sur votre propre,
vous savez,
voir ce que vous pouvez faire.
Pas tout.
Et ceci est un differentiateur.
Nous nous comportons
comme une communauté.
Oui, c'est génial.
Et vous ne vous dédiviez pas quelqu'un,
vous savez, juste de la hangarité.
Ils savent qu'ils ont la soutien.
Globalement.
Vous avez l'essentiel London,
vous avez l'essentiel,
je veux dire,
tout le monde va s'entraîner.
Et respectuellement,
parce que vous ne voulez pas que des millions de gens parlent,
mais vous écoutez,
ce que je peux faire pour ces gens,
peut-être que j'ai eu la même situation,
que je fais,
que je suis oublié de quelque chose.
De cette façon, vous ne êtes pas seul.
Et cette est une stratégie superbe,
je veux dire, superbe,
donc quand nous avons cette situation en Chile,
nous avons plusieurs centres de données là-bas,
et ils ont perdu l'empowerment du monde.
Donc, quelle est la stratégie
quand vous avez une étude mondiale,
comme vous n'avez pas la même chose en bas.
Mais vous avez assez de gens
avec l'autorité d'avoir,
d'ailleurs, pourquoi ne vous en avez pas de refus?
Nous allons commencer à refus,
parce que nous ne savons pas combien ça va durer.
Ils sont en train de adapter,
avec l'adaptation.
Nous avons des gens sur le flot,
et vous avez des gens différents,
avec des pièces différentes,
et vous savez,
vous devez vraiment regarder ça,
et vous le prenez bien.
Et vous vous sentez vraiment
qu'ils ont votre bâtiment.
C'est une adaptation coopérative,
c'est assez cool.
Exactement.
Et ce n'est pas le secret,
c'est pas...
On va faire sure que ce n'est pas le cas.
Ce n'est pas la stratégie,
c'est le fait que les choses se brouillent.
Donc, comment vous vous en dealz?
Je pense que certains de nos listeners
seraient vraiment contents de entendre
comment, pour leur organisation plus petite,
peut-être avec moins d'une réplique
pour cette distribution de skill,
pour ces tas de laitres
qui sont planées en plus longtemps,
pour qu'ils puissent trouver un bâtiment pour eux-mêmes
pour construire cette compétence de la qualité de la frontière.
Bien sûr.
Qu'est-ce que vous proposez de leur commencer
de l'un de l'autre,
comment développer leur culture pour cette frontière
de la petite,
et quel genre de procédure pour prendre
une approche incrementale
pour gagner cette kind de résilience?
C'est intéressant,
parce que j'ai commencé à Google
quand nous étions très petits.
Quand j'ai commencé,
nous avons juste une main de données.
Et je me suis assis
d'assigner de finir
un des deux des mes premiers assignments ici,
parce que nous avons vraiment juste un peu.
Donc comment vous commencez
d'une petite organisation
et scalez-vous?
Ou peut-être que vous ne va pas scalez-vous,
peut-être que c'est tout que vous avez besoin.
Vous avez juste besoin de quelques centres de données
et vous êtes bien.
Vous avez besoin de trouver des partenaires entrés.
Donc, pour exemple,
quand nous étions petits,
nous avons eu très peu de staff,
nous avons dépendu
de certains architectures
et consulteurs d'engineering,
certains vendredats entrés,
des contracteurs électriques
et de la spécialité.
Nous avons utilisé
et nous les payons,
nous n'avons pas demandé pour la carrière,
nous étions sur le retainement
et nous payons pour leur temps.
Mais nous avons eu l'expertise
que nous n'avons pas.
Nous avons dit,
nous allons mettre un accord
sur les collègues
pour que nous n'avons pas de droit
pour vous appuyer à chaque fois.
Mais, hey, quand je vous ai besoin
de votre vendeur,
peut-je vous donner un hold
de Andy et de Tom
et vous leur demandez
de s'en aller ou de l'aide
et de l'aide au site de recouverts.
Donc, nous avons utilisé les vendredats
comme nous avons construit
nos expertises de la maison.
Vous n'avez pas besoin de savoir tout.
Vous n'avez pas besoin de être capable
de tout.
Mais vous avez besoin d'un plan.
Vous savez,
juste quelque chose simple comme de la fulgur.
Quand vous allez au générateur,
vous avez besoin de la fulgur.
Vous avez besoin de la discussion
avec vos vendredats de fulgur
du temps avant de les avoir.
Vous avez besoin de dire
que vous pouvez faire.
Vous savez,
je peux y aller dans 4 heures.
OK.
Je l'ai. Vous êtes sûrs ?
Oui.
Je vais y aller dans 4 heures
quand vous me demandez.
OK.
Maintenant,
ça devient part de votre plan de conteneur.
Donc, commencez à petit
et commencez avec les choses obviantes.
Dis-vous à vos vendredats.
Dis-vous un peu,
même juste un peu de mots
sur un plan de conteneur.
Qu'est-ce qui se passe quand la puissance s'exprime ?
Juste 5 bulletins.
Et ça a vraiment fait.
Avec respect à l'incident de la Chilli,
je n'ai pas été involved en tout ça
parce que c'est juste récemment.
Mais je me souviens,
il y a quelques autres
espèces d'incident que j'ai écouté
à l'époque.
Et ils ont parlé de refusation.
Mais ils ont figuré
combien ça prend pour les fulgurs.
Mais aussi,
comment les trucks
ont besoin d'être en flight
à un moment
pour les garder.
C'est vrai.
Ils peuvent continuer de faire
ce genre de choses,
pas toujours,
mais pour un long temps.
Mais ils n'ont pas
vraiment
le temps pour être
une grande édition.
Mais ils pensent
qu'on sait
qu'on peut avoir
une espèce de spreadsheet
juste en cas de l'avenir.
Et ils ont utilisé
cette spreadsheet
qui a totalement sauvé le jour
parce qu'ils savaient
que les 7 trucks
ou tout ça
peuvent aller
tout le temps
à l'éthique,
à l'éthique et à l'éthique
avant que le tank
se débrouille et etc.
Donc,
cette préparation
je pense
que ça
se traduit vraiment bien
pas juste au sein de la
monde,
mais pour
faire
une sorte de
repos en réponse.
Vous n'avez pas
à prédiquer
l'exact état
mais juste
connaître vos capacités
et ce que vous pouvez faire
et comme
vous savez,
c'est ce que nous avons
dans notre
chède
de possibilités.
Et donc,
au moins,
vous savez que c'est dans votre chède
ce qui est vraiment important
ou votre bâtiment de bâtiment.
Peut-être.
Steve,
ça me semble un peu
comme faire
vos postmortem's
après un incident
en regardant les lessons
appris
et en regardant vos analyses.
Comment a-t-il
l'a matché
avec ce qui a

Je t'ai dit que
tu fais
un peu de ça
après un incident
comme ça
pour te dire
un peu

regardant
après tu préoccuperes
les choses que tu appris
les choses que tu as
pas bien ou pas bien
je t'ai dit
pas bien
pas bien

et je vous donne
un
let's stick
sur ce
topic de fuel
pour un peu
parce que c'est quelque chose
que
tu ne fais pas
très souvent
je veux dire
c'est sérieux
sur ce
les gris de utilité
sont en fait
réellement
reliant
quand tu as besoin
c'est peut-être
une fois dans ton
carrière
ou deux fois
tu sais
c'est un très rare
item
que tu dois refuel
parce que c'est un outage
un peu de fois
tu refueles
parce que tu as utilisé
ton diesel
générateur
pour les purposes de maintenance
et donc
tu refueles
à ton délai
je vous challenge
de faire
autant de tests
en réel
en test
possible
et c'est quelque chose
que nous avons
appris
que ce n'est pas
évident
tu dis
comment tu as

que je le ferai
oh
on ferait
un moteur
pour
le
pour
le nombre de heures
un moteur
est
7200 gallons
7250
je crois
un moteur
donc tu es
comme
OK
bien
on a besoin
d'un de ces
tous
et vous
faites ces
clés
de calculations
et tu penses
que tu es
tout le monde
tu es
le gold
mais tu n'as pas
physiquement
dans le monde
donc
on a
on a
cette opportunité
on a
la foule
dans un de
les sites
un peu
on a dit
hey
on va faire
comme
ça
c'est
une vraie
émergence
donc
on a
commencé
refuelant
hum
ce que nous
avons
on a
appris
que
la plus
qu'on peut
sortir
un moteur
c'est
300 gallons
par minute
c'est
ça
c'est
ce qu'on peut
tomber
donc
maintenant
hum
on n'a pas
figuré
dans le temps
de refuelant
et le temps
de refuelant
a été
signifiant
c'était
instantané
c'était
pas instantané
on a
tu as
7200 gallons
de ce moteur
à 300 gallons
par minute
max
c'est
un peu de minutes
à peu
et ça
n'a pas
l'inclusion
avec
les hoses
la
connexion
la
connexion
la
clean-up
les
les

les
les
n'a pas
l'inclusion
et on
Molly

Cant
attendot
et
27

si
il verticale
ces

c'est une partie de la situation de maintenance.
On dit que ça ne commence pas, mais ce n'est pas possible.
On a l'adaptation d'une seule fois d'une des opportunités
parce que vous allez apprendre quelque chose de nouveau à chaque fois.
Je vais vous demander une question qui est un peu en train de changer les armes.
Quand on parle de la foule et de l'infrastructure, les choses concrètes,
je pense que ça est comme de la vue par la fin,
par la fin du stack, par la foule et le foule.
Et puis si vous regardez la foule, je vous imagine symboliquement,
après un certain point, vous vous êtes au centre de la date
et vous vous êtes dans le système distribué qui est construit sur le dessus.
C'est là où ces grands systèmes de software sont en train de se passer
à plusieurs centres de données.
Et maintenant vous vous interagissez avec d'autres équipes.
Vous ne vous en avez pas vraiment de vendredi, de voitures,
vous en avez des essais en London, vous l'avez mentionnée,
ou des développeurs de software en Tokyo, des choses comme ça.
Alors, que sont les interactions entre vos staff,
les gens que vous travaillez avec sur le site?
Et ces gens, c'est-il juste...
Est-ce qu'ils ont une main-d'oeuvre et vous n'avez jamais parlé de l'autre?
Ou des tickets?
Vous avez mentionné cette conférence vidéo,
le salle de panique, qui est un choc et un chou.
J'espère que ce n'est pas une panique en fait.
Mais, est-ce que vous avez des autres méthodes que vous avez...
Est-ce que tout est en train de se faire ou est-ce que vous avez aussi une adaptation
en ce sens aussi?
Absolument. Et nous parlons tout le temps.
C'est génial.
Avant cette call, je suis sur un autre call avec
probablement 20 SREs,
en parlant de la prochaine round de test du détert,
de l'ISON test, et d'autres choses,
que nous allons faire ici.
C'est une communication constante.
Et la meilleure communication que nous pouvons avoir
est que notre travail est totalement transparent
pour le reste de la fleet.
Donc, comme la situation de Chile,
le monde n'a pas de pouvoir, mais nous n'avons pas impacté.
Vous pouvez nous dire ce que l'ISON et le détert sont?
Bien sûr. Le détert est un des défais simulés.
Et j'ai oublié ce que l'acronyme est.
Vous tous devriez savoir mieux que moi.
Un test de récouragement ou de test de résilience?
Des tests de résilience.
C'est simulé. Qu'est-ce qui se passe si ça va vraiment mal?
Comment récoverons-nous?
Comment récoverons-nous les clients, les données?
Nous co-ordinons avec ça tout le temps.
Et l'ISON test est où nous avons failli les choses off.
Nous avons fait des choses off.
Et nous disons que ce qui se passe est que ça se passe.
Mais c'est une réelle élection.
Nous avons fait des choses off.
Et c'est où nous avons fait les choses off.
Nous disons que nous devons faire ça et ça.
Et c'est très facile de dire ça.
Mais nous faisons les choses off.
Et nous disons que si la utilité a fallu,
nous pouvions faire une simulation.
Ou nous pouvions le faire.
Et comment ça affecte les systèmes upstream?
Est-ce qu'ils sont capables d'éviter un truc comme ça?
Ce n'est pas possible.
Mais, d'abord, on est offlés au filtre.
C'est quelque chose qu'on ne fait pas très souvent.
Parce qu'on ne veut pas faire un truc sur le diesel.
Pour tous les raisons environnementaux.
Donc, on a essayé de ne pas faire un truc sur le diesel.
Mais c'est plus important d'en tester.
Parce que c'est quelque chose qu'on ne fait pas très souvent.
Ce qui signifie que ça va être bien.
Et ça ne sera pas bien.
En ce moment, ils se disent que ça se refera à des tests de chaos.
C'est surtout dans les modes de défaut.
Mais vous pouvez imaginer un truc comme ça.
C'est un truc qui induit un peu de chaos dans le système.
Et on va voir ce qui se passe.
On va voir que la somme est bien.
On va voir ce qui se passe.
On a essayé de refusé.
Parce que nous avons fait des maintenance.
On a dit, on va essayer de faire ça sous des conditions d'émergence.
Et on a appris qu'on a appris beaucoup.
Donc, c'est une partie de ce truc.
Encore une fois, si votre stratégie est d'essayer de ne pas faire mal,
ça va être très désappointant.
Pete, nous allons dire un peu
qu'on va faire un tech pour la prochaine génération.
Et on va faire un tech pour les technologies de l'avenir.
Ou quelque chose de nouveau dans les centres de données
que vous pouvez partager avec nous.
Ou des gens qui ne l'attendent pas.
Qu'est-ce qui nous fait ?
Densité.
C'est plus.
Je vais vous dire un peu.
10, 15 ans plus tard,
tous les centres de données
étaient des sortes d'Intel, AMD, chip.
Et c'était très similaire à ce que c'était dans votre PC.
Bien sûr, je suis très simplis.
Mais c'était un chips air cool.
C'était à dire qu'ils avaient un heat sink
et un petit fan de mouillage.
Et ils ont brûlé l'air à travers le heat sink
et ont pris le heat off le chip.
Et tout était bien.
Et ils étaient très peu de consommation de power.
100 watts, quelque chose comme ça.
Peut-être 150 watts.
Puis, l'industrie, bien sûr,
était hunger pour plus de capacité.
Donc, vous vous mettez plus de choses sur le mur.
Vous faites ce chip un peu plus grand.
Vous mettez plus de chips dans le mur.
Vous buildez un bunch de chips
dans un chips à l'application
de la circule intégrée.
Et Asic, qui est une conglomération
des choses qui travaillent ensemble
sur un sort de package.
Et ce marchand
a été passé pour toujours.
Oui, Moore's Law est une partie de ça.
C'est juste de plus en plus.
Plus en plus.
Je veux augmenter la vitesse de l'écran.
Je veux que ça se passe vite.
Parce qu'ils sont expensifs.
Je veux une higher return
sur combien de power à procéder
pour les milliers de dollars
que j'ai investi.
Vous avez vu les intels de ce monde.
Et maintenant, en NVIDIA, je peux le faire mieux.
C'est 4x plus vite.
C'est 10x plus vite.
Tout ça est merveilleux.
Ce n'est pas mon secteur d'expertise.
Les gens qui ont tous les phd.
peuvent parler beaucoup mieux.
Mon monde est de power et de cool.
Nous observons ces chips.
Et ils ont besoin de plus de power.
Chaque année, plus de power, plus de densité.
Mais ils donnent beaucoup de performance.
Le business a beaucoup de retour
sur leur investissement.
Power devient de la haute.
Simple que ça.
Je supplie plus de power
dans le chip, dans le data center,
ou autre chose.
Ça fonctionne.
Ça fonctionne dans la haute.
À cette compagnie, nous abîmes les lois de thermodynamics.
Power est en train de travailler.
Et ça fonctionne.
Et ça fonctionne dans la haute.
C'est la façon dont ça fonctionne.
Donc, la power que nous avons offert
maintenant est probablement
plusieurs x plus que...
Et je ne me souviens pas de la quantité.
Mais plusieurs x plus que 10 ans plus.
Et ça vous pousse à certaines conclusions.
Et la whole industrie est venu
à la même conclusion que nous
avons fait 6, 7, 8 ans.
Nous étions au bout du curve.
Nous avons dit que si nous
nous étions en train de extrapoler
ceci, il y aura un point
où vous ne pouvez pas mettre un
heat sink
pour un chip et faire l'air
à travers le monde.
Vous ne pouvez pas avoir le heat
dans ce circuit
avec le système
de heat sink et un fan.
Vous devez utiliser
une media de haute capacité.
Je pense que je sais où nous allons.
L'eau est liquide.
Nous disons que l'eau est cool,
mais ce n'est pas l'eau.
Ce sont différentes fluides, mais c'est
l'eau avec des inhibiteurs antichoraux
et des choses comme ça.
Mais essentiellement, les manufactures
en particulier en Vidéa
ne peuvent pas être là sans
une plate-cold
qui est allée à travers notre chip.
Nous allons prendre un copter
ou un autre matériel.
Nous allons le mettre sur la chip
et vous allez mettre
l'eau dans l'eau
et le mettre au sol.
Nous allons retirer la haute
avec l'eau.
Elle a 3 000 fois la capacité de heat
pour un volume de l'air.
Les compétitions ont du plaisir
d'interacter avec l'eau.
Oui.
Nous sentons
que Google a
très bien regardé
6, 7, 8 ans auparavant.
Google a dit
qu'on doit apprendre
à faire des processeurs de l'eau.
Ce n'était pas simple, pas triviel.
Beaucoup de gens
sont en train de faire ça maintenant
à l'heure 11.
Oui, vous portez l'eau
directement à la chip.
C'est un leap de confiance.
Je me souviens de l'alimentation
de ce long de temps.
Le premier plan est de mettre
les pips à travers la pêche
et de mettre l'eau en bas.
Et nous réalisons que c'est un mauvais plan.
Parce que les pips se passent.
Les petits trucs comme ça.
C'est difficile.
Nous avons spent le dernier 7 ou 8 ans.
Nous avons spent le 7 ans.
Un lot de gens
très bons.
On a spent beaucoup de
de la haute
pour faire ça.
Vous ne faites pas un peu de pips.
Je dois faire des pips de l'eau.
Il y a beaucoup de pips.
Monitour,
températures,
leaks.
Comment vous n'avez pas le leak ?
Nous avons appris beaucoup.
C'est notre sauce secret.
Je me suis dit
que c'est la sauce secret.
Je pense que c'est 7 ans
de très hard work
de beaucoup de gens détaillés.
Et puis, magiquement,
la sauce secret s'appuie.
C'est hard work.
Period.
En parlant de l'expertise
et de la nouvelle tech, quelqu'un m'a dit
que l'intelligence artificielle
optimise nos centres de données pour les pouvoirs.
C'est un truc.
C'est drôle.
Il y avait des machines de la technologie.
Je ne suis pas le expert de la matière.
Mais c'est très utile
pour nous.
Nous avons utilisé ça
pour plusieurs années.
Il y avait un annonce public
sur le use
de machines de la technologie.
Mais maintenant,
sur comment nous avons
mis nos plantes de la réplique.
Nous avons
des saveurs très grandes.
Je veux dire des numéros.
Mais je pense que c'est entre 15 et 40 %
de la réplique.
C'est cool.
C'est un pué, je pense, qui a été
détaillé.
C'est le secret.
Comme des humains,
si vous serez devant un panel de contrôle
et vous avez besoin d'adresser
les nobles,
chaque 2 minutes, vous vous dîtes votre mind.
Vous ne pouvez pas le faire.
Vous n'avez pas de capacités prédictives.
Nous avons
des gens très chers.
Ils ont travaillé avec
les folk d'Ottawa,
et nous avons vécu avec
ce petit...
C'est toujours petit quand vous n'avez pas besoin de le faire.
Il y avait beaucoup de travail.
De la distance, de l'Ontario.
Ils ont vécu avec ce
approach de ML.
On peut pas seulement prendre
les ingrédients de tous ces devises
et trouver un point optimum
pour chaque 1.
Mais on peut aussi prendre
des données prédictives.
Je peux faire des ajustements
maintenant, based sur ce que la
l'air sera 2 heures de maintenant.
C'est cool.
C'est vrai.
C'est des données de réel temps
et de réel temps.
Vous voyez
que c'est fascinant de regarder.
Parce que ça va commencer
à se faire couler la coolant
avec un air à base de réfrigérateur.
Ça va commencer à réduire
et vous vous direz, qu'est-ce que c'est?
Et vous voyez ça pour un peu plus tard.
Ça fait une décision
que si je increve le speed de fan
et le speed de pump
un peu, je peux avoir le même coolant
pour moins de pouvoir.
Ça commence à se faire couler la réfrigérateur.
Parce que ça anticipera
les 2 heures de l'air
maintenant.
Fascinant de regarder.
À Google, nous sommes heureux
de se faire couler les grandes quantités.
Et je peux toujours dire que
une petite change en large est encore une large.
Ça se passe beaucoup à Google
si c'est un bon change ou un mauvais change.
Donc, dans votre monde
quel est le nombre que vous utilisez
pour vous dire à des gens
qui vous disent que c'est cool.
Et comment est-ce intéressant?
Et quel est le nombre que vous pouvez partager
sur la scale de votre monde?
Est-ce que c'est la photo square de ciment
ou est-ce que c'est la densité de quelque chose?
Qu'est-ce que votre numéro préféré?
Joues ou watts?
Oui, choisir les unités wisely.
Chose mes unités wisely.
Il y a tous les capacités
mais ce qui me impacte.
Je suis un ingénieur électrique
par trade.
Je suis un agréable électrique.
Je suis toujours fasciné
par l'autre côté de la maison
qui est le côté de la cool.
Parce que pour moi c'est un peu mystifique.
Vous faites l'eau froide,
ça se fait chaud, ça se fait frapper,
vous faites l'eau froide.
Parce que vous êtes toujours fasciné
par ce que vous ne savez pas bien.
Donc, je suis allé
à un de nos sites
et je regardais le pipe.
Et je disais
qu'est-ce que c'est?
Et je dis, oh, c'est le sable de chaleur
pour la centrale de la date.
Je dis, oh, le sable est bon.
Et c'est ça?
C'est la retour,
l'eau froide revient.
C'est pas grand.
C'est 42 inch de diamètre.
C'est assez grand.
Donc, c'est la scale.
Et vous pouvez, essentiellement,
42 inch de diamètre,
si vous vous créez un peu,
vous pouvez marcher.
Et je dis,
c'est ce que ça fait
pour les choses.
Et ils me disent,
c'est très nonchalant.
Je suis sûr qu'il y a une scène
dans un de nos films Star Trek
où il se transporte
dans un de ces pipes et ils se flowent.
Exactement.
Ce site, c'est un de nos grands.
Il y a un sable de chaleur
42 inch de diamètre.
Et pour moi, c'est...
vraiment?
Et je pense que c'est rapidement
pour le diamètre.
Exactement.
Et ça, pour moi,
c'est pour ça que j'ai le point.
Et c'est juste un de nos chaleurs.
Oui, vous direz,
je ne pense pas que vous avez
un bon sens sur tout,
mais vous direz que les centres de Google
sont différents de autres centres de data?
Je le dirais parce que c'est un bon sens.
Et c'est pas bon ou pas.
Les centres de data sont
des choses personnelles
pour les entreprises.
Si vous êtes une sorte de company,
vous optimisez pour un centre de data
d'entreprise.
Donc Google est personnel
à ce que nous faisons.
Ils se sont tous les mêmes,
tous les centres de data
ont la même purpose.
Une grosse boxe.
Vous mettez des électrons en une partie,
il se fait chaud, vous vous mettez le heat
à l'autre côté, vous vous mettez le heat.
Mais c'est tout le monde
dans le monde.
Comment vous parlez de les services?
Comment vous interfacez avec la networking?
Tout ça est vraiment très
unique à la company que vous êtes
dans.
Ce n'est pas bon ou pas, mais je pense que
nous avons un bon mix
qui est bien entre entreprise
et hyper-scale type.
Nous avons un bon mix.
Et ce n'est pas par accident
que nous avons eu un bon
leadership forward.
7 ans plus tard,
les gens et les plateformes
ont embrassé la cool de l'eau.
C'était une bonne idée.
C'est génial.
C'est très facile de dire non à ce genre de choses.
Mais le fait qu'ils disent oui, c'est génial.
C'est parce que vous vous dites,
pourquoi nous avons besoin de ça?
Mais vous devez regarder 4 ou 5 ans
avant de l'heure.
Quand je parle de la company, part de mon travail
en parlant de la entreprise.
On parle de la technologie de la cloud
et des centres de données.
Ils sont venus de leurs centres de données
ou d'autres centres de données.
Le plus important est
qu'ils veulent citer
MTTR et MTBF.
Je suis curieux
de vous dire
comment vous sentez ces statistiques
dans votre monde.
Je sais que dans mon monde,
dans le jeu de systèmes
il y a un grand set de homogénie
qui ont tous des domaines de défense similaires
ou des modes de défense.
Nous avons des défenses novels.
Ce n'est pas une distribution normale
donc pourquoi vous avez les mains?
Mais je suis curieux,
si vous avez un centre de données
avec une part similaire de 11 millions,
peut-être que ces chiffres
sont de la même manière
que la distribution normale
se dévouent dans votre monde.
Est-ce que vous avez l'adaptation
de ça quand vous êtes en train de
mesurer votre succès?
C'est ça.
Vous avez des choses
qui sont sous la team de la operation
pour monitor et pour mesurer.
Certes, je dois vous dire
que personne n'est en train de se laisser
ne pas se mettre les choses au transport
et dire que bonsoir,
ce n'est pas la communauté
que nous avons ici.
Nous n'avons pas ça.
Alors, ce qui est de la concernant
est la mémoire que nous regardons
de l'availability.
99,99, whatever, 5 nines
de l'availability, c'est notre target.
Et le moyen de ce target est
de minimiser les défais
pour ne pas les fixer
et de fixer les choses comme vite que vous pouvez
pour que votre temps de détail soit minimisé.
C'est comme ça que vous avez l'availability

Comment nous avons été là?
Nous avons des features uniques
ou des opportunités uniques.
Les manufactures
n'ont pas beaucoup de customers
qui ont un grand install
de leur équipement que nous.
Donc, nous avons en fait un meilleur
de l'availability que les manufactures
de leur équipement.
Parce qu'ils n'ont pas un pool
de concentré de l'équipement que nous avons.
Donc, nous avons vu tous leurs défaises
nous avons vu tous leurs applications
et tout.
Donc, nous travaillons très bien avec les manufactures.
La autre chose que nous faisons
c'est qu'on a construit des designs
de faute tolérant.
Si vous espérez que quelque chose ne va pas falloir
ne va pas être si bon.
Nous avons un programme
de spare parts très robuste
pour que si quelque chose ne va pas falloir
on peut récover
très rapidement, en utilisant un design de faute tolérant
et puis, nous avons
la spare part en main.
Donc, nous pouvons voir
ce qui se passe à la fin de la flotte.
Même si le manufacturier vous dit
que nous n'avons jamais eu un faute au-delà de ça
et ils ne sont pas en train de le faire.
Ils n'ont jamais vu ça parce qu'ils ont vendu 2 à cette personne
5 à cette personne. Mais nous avons acheté 600.
Et nous disons, si vous avez 600 de tout
et vous avez un faute au-delà de 0.001
on va perdre
1 à chaque 2 ans.
Donc, la stratégie de spare parts
la stratégie de réparation
faute tolérant
et de travailler très bien
avec vos vendeurs. Et nous faisons
vraiment bien avec l'availabilité.
Je dirais que nous sommes probablement les meilleurs
dans l'industrie.
Oui, nous aimons que, à la scale Google,
1 à 1, des odds se passent tout le temps.
Exactement. Et c'est important
de ne pas
assumer l'intent
dans vos vendeurs.
Parce qu'ils disent,
« C'est juste bloqué, vous devriez me dire ça ».
Ils ne le savent pas.
Parce qu'ils n'ont pas de base
assez grande de statistiques.
Donc, travaillez avec vos vendeurs.
Encore une fois, c'est un argument de communauté.
Faites comme une communauté,
pas comme un peu d'individuels.
Exactement.
Merci Pete. C'est bien.
C'est cool de
toucher le gras avec le centre d'article
d'article, toucher le cement, peut-être.
Je ne sais pas, toucher le stéphane.
Prends les mains, t'envoies le chou.
Non, non, non.
Cement est ce que tu mixes avec le gras
et le water.
Oh, pardon, pardon.
Pour faire concrète.
Concrète. Je me suis dit que c'est pas le cas.
Je l'apprécie.
On a appris beaucoup,
surtout la dernière partie.
Juste là.
Aux mots finaux pour nos amis,
pour comment les gens peuvent
s'en occuper avec ce genre de choses.
Je sais qu'on a un cool podcast
que Stephanie Wong a fait il y a quelques années
sur comment les centres de données
travaillent dans les communautés,
comme vous l'avez dit.
Quels autres ressources
que vous voulez rappeler
à ceux qui sont en train de l'écouter?
Il y a beaucoup de bons contenus.
C'est une industrie fascinante
maintenant.
C'est vraiment, vraiment excitant.
La scale est vraiment excitante.
Il y a beaucoup de gens.
Il y a encore un grand.
C'est fou.
Il y a beaucoup de gens.
Merci Pete.
Bonne journée, tout le monde.
Merci beaucoup.
T'es au courant.
Vous avez écouté le podcast.
Google est un podcast
sur l'engineur de la réliabilité de site.
Visite nous sur le web
sur sre.google
où vous pouvez trouver
les papiers, les workshops,
les vidéos et plus sur le sre.
Le podcast est hosté
par Steve McGee
avec des contributions
de Jordan Greenberg,
Florian Rathgeber
et Matt Siegler.
Le podcast est produisant
par Paul Guglielmino,
Sunny Chow
et Salim Virgi.
Le podcast est télébotte
par Javi Beltran.
Special thanks
à M.P. English
et Jen Petoff.

Episode suivant:

The One with AI and Todd Underwood

Les infos glanées

Je suis une fonctionnalité encore en dévelopement

Signaler une erreur

GoogleSREProdcast

SRE Prodcast brings Google's experience with Site Reliability Engineering together with special guests and exciting topics to discuss the present and future of reliable production engineering!

Card title

Lien du podcast

[{'term': 'Technology', 'label': None, 'scheme': 'http://www.itunes.com/'}]

Go somewhere