Evernote 的 SRE 经理 Garrett Plasky 领导着一个由站点可靠性工程师、devops 工程师和系统管理员组成的团队,他们负责 Evernote 生产服务基础设施的健康,并最终确保客户满意度。
“2016 年,Evernote 开始对其托管基础设施进行重大改进,”Plasky 分享道。“此次更新——围绕将许多工作负载迁移到谷歌云平台——是努力使运营民主化的一部分,使工程师能够快速移动、迭代和建立服务。”
然而,随着敏捷性的提高,责任也随之增加。Evernote 工程师现在不仅负责构建服务,还负责在生产中维护它们。为了有效地做到这一点,他们需要跟踪关键绩效指标 (KPI),这可以帮助他们在基础设施出现问题时就如何维护服务水平目标 (SLO) 做出明智的决策。
“这些是我们正在监控和提醒更多的事物类型——完整的用户旅程,也就是我们的用户关心的事物,”Plasky 解释说。“例如,打开、创建和同步笔记需要多长时间?我们正在重新定义我们思考重要事项的方式,并更多地像漏洞一样从顶部向下看,而不是从底部向上看。”