PagerDuty使印象笔记快速响应问题

PagerDuty使印象笔记快速响应问题

客户:印象笔记(Evernote

Evernote 是一个跨平台的软件即服务应用程序,旨在帮助人们提高工作效率,使人们在一天中的任何时候都能更容易地在网络和移动设备上做笔记和管理信息。

如今,Evernote 在全球拥有超过 2.2 亿用户,其中 80% 的用户在美国以外。由于有如此多的人依赖该平台,Evernote 必须确保服务的高可用性——否则就有客户不满意和订阅取消的风险。PagerDuty 使 Evernote 的工程师能够快速响应,以最大限度地减少性能问题对客户的影响

通过服务水平目标了解客户旅程

Evernote 的 SRE 经理 Garrett Plasky 领导着一个由站点可靠性工程师、devops 工程师和系统管理员组成的团队,他们负责 Evernote 生产服务基础设施的健康,并最终确保客户满意度。

“2016 年,Evernote 开始对其托管基础设施进行重大改进,”Plasky 分享道。“此次更新——围绕将许多工作负载迁移到谷歌云平台——是努力使运营民主化的一部分,使工程师能够快速移动、迭代和建立服务。”

然而,随着敏捷性的提高,责任也随之增加。Evernote 工程师现在不仅负责构建服务,还负责在生产中维护它们。为了有效地做到这一点,他们需要跟踪关键绩效指标 (KPI),这可以帮助他们在基础设施出现问题时就如何维护服务水平目标 (SLO) 做出明智的决策。

“这些是我们正在监控和提醒更多的事物类型——完整的用户旅程,也就是我们的用户关心的事物,”Plasky 解释说。“例如,打开、创建和同步笔记需要多长时间?我们正在重新定义我们思考重要事项的方式,并更多地像漏洞一样从顶部向下看,而不是从底部向上看。”

开发洞察力以增强工程师的能力并改善未来的响应

从客户的角度看待 SLO 还为 Plasky 的团队提供了洞察力,使他们能够就复杂的应用程序环境做出明智的、实时的决策。Evernote 工程师负责维护他们创建的服务,并有权确定给定警报是否严重到值得采取行动。PagerDuty 提供必要的数据来帮助 Plasky 的团队就每个事件的相关性做出决策,使工程师能够更有效地工作,同时仍然为最终用户保持高服务可用性。

此外,使用 PagerDuty 的事后分析功能还使 Plasky 和他的同事能够执行富有洞察力、简化的事后分析。“作为运营组织,我们面临的一个挑战是继续我们成熟和全面的事件响应流程,但也要平衡这一点,因为我们不想花两个人日来整理一份事后报告或有一个三个小时的会议讨论一个问题。” 通过自动化事后报告,PagerDuty 帮助团队应对这一挑战。

“我们有不同的数据和警报来源。但让它们全部通过 PagerDuty 汇集是有价值的,因为它让我们很容易看到发生了什么、出了什么问题以及何时发生的。”– Garrett Plasky ,Evernote 的 SRE 经理

Evernote 和 PagerDuty:共同成长

随着 Evernote 的不断发展和发展,PagerDuty 将在其身边。当 Plasky 于 2012 年加入 Evernote 时,该公司仅将 PagerDuty 用于警报和通知。如今,他的团队还使用 PagerDuty 来安排 on-call 轮换,并利用该平台的高级分析功能为他们提供单一的事实来源,以了解生产问题。

Evernote 计划在明年增加对微服务的使用,该公司将增加更多的产品工程团队作为 PagerDuty 用户,这样他们就可以在将服务移交给 Plasky 团队之前负责运行自己的服务。额外的 PagerDuty功能和集成也在未来计划中占有重要地位——特别是可用的事后分析模板和响应播放,因此 Evernote 可以继续自动化和改进其事件响应流程。

“我们有不同的数据和警报来源。但是通过 PagerDuty 将它们全部集中起来是有价值的,因为它让我们很容易看到发生了什么、出了什么问题以及什么时候出错,”Plasky 分享道。“PagerDuty 是在关键故障时唤醒我们的东西,这对于让客户满意至关重要。”

发表评论