作者:禅与计算机程序设计艺术
1.简介
2021年,是近几年里“黑五”的高峰期。这个时候,传言马斯克和SpaceX等公司正在崛起,上市股票也在快速飙涨。当下,全球各大互联网公司纷纷布局海外市场,而国内一线互联网公司却缺乏相应的团队、资源来应对这波“黑五”。2021年的最后一个月,随着新冠肺炎疫情在全球扩散,许多企业已经陆续宣布解除运营或进入灾难恢复阶段。越来越多的行业将面临新的机遇,站在风口浪尖上的互联网企业却无力应对突如其来的变局。
在这样的背景下,Google推出了Google Cloud Platform(GCP)这一云计算服务平台,让开发者、系统管理员以及产品经理都能够轻松部署、管理和扩展自己的应用程序。通过利用GCP,企业能够更加关注应用的性能、可靠性和可用性。而作为云计算领域最有经验的一批人之一,肯尼斯·罗宾逊()、托马斯·诺埃尔·索拉诺(Tom Sterno)、蒂姆·库克(Tim Cook)、史蒂夫·麦卡沃伊(Steve McKay)和雅各布·莱特利(Yoshifumi Littiri)四位工程师不约而同地选择了站在这个风口的行列,组建了Google Site Reliability Engineering Team (SRE)进行网站可靠性工程。
本文就是关于站点可靠性工程的研究报告。我们的目标是以Google SRE团队成员的视角,从网站可靠性工程的前世今生、现状到未来发展方向,全面阐述并展开探讨。希望大家能从中收获更多的启发和思路。