PagerDuty帮助Quartet
减少了25%的事件

客户信息

Quartet开发并提供了一个基于云的平台,该平台能够促进医疗提供商和行为健康提供商在患者护理方面的沟通与协作。Quartet依靠先进的分析,和经过验证的治疗程序,致力于推动医疗保健服务适在提供者,患者和保险公司之间的连贯性。Quartet重点关注的是那些24/7的医疗保健提供者,并在最大程度上确保数据安全性和隐私性,所以密切关注内部的系统行为,并确保业务高效,安全地运行是一件很重要的事。

应用需求

最初,当Quartet只有一个由7名工程师的小团队时,他们开始使用Sumo Logic和Slack来提供实时的IT见解。工程师可以将他们的事件警报通知定向到Slack内的特定频道,以便在手机和电脑上接收警报。因为他们没有轮班的时间表,所以当出现问题时,每个人都会同时蜂拥而至,但是每次经过讨论,结果只需要有一个人采取行动。-而这种蜂拥而至的处理过程意味着服务中断,导致了平均应答时间(MTTA)和平均解决时间(MTTR)的增加。对此,Shabib说:“我们并没有尽自己最大的能力去解决事件,而是将时间花在了采用了不同的解决方案和流程上。”
随着公司的发展,缺乏正确、高效的事件管理解决方案,使得我们在提供始终在线的平台服务时付出了巨大的代价。

应用效果

1、实施减少MTTA和MTTR的解决方案
随着Quartet的工程团队不断壮大,通过部署解决方案来维护关键服务和系统的需求变得迫在眉睫。在仔细考虑之后,他们最终选择了PagerDuty来帮助公司克服快速解决事件时所面临的挑战,同时还支持其减少MTTA,MTTR和事件总数的目标。Quartety在选择的过程中也研究了其他的一些解决方案,但发现PagerDuty更成熟,并且在行业中享有较好的声誉。
Quartet的整个基础架构内置于AWS中,它们利用CloudWatch进行系统级资源警报和监视。然后这些警报通过PagerDuty,web主机,以及基于第三方的云日志管理和分析服务Sumo Logic触发。具体的过程是他们在所有主机上运行代理,而这些代理会将日志推送到Sumo Logic,并通过每分钟创建计划的查询的方式触发PagerDuty的事件警报。Shabib指出,在问题得到解决之前发出警报和提醒的解决方案,有助于在团队内部建立责任感,有助于进一步生成高质量的日志。同时允许在问题发生时,团队成员能更快地对其进行调试。当然,还制定了升级策略,当主要联系人无法确认事件状况时,该策略就会生效,从而允许候选的通话联系人采取行动,保证了事件能够得到及时的响应。

“我认为PagerDuty有助于将事件处理的所有权交到工程师手中。Shabib说:“使它们更接近事件,以便在发生事件时,那些真正构建该软件的相关人员也能收到通知,从而解决和改善问题。” 这比“群策群力”的技术要好得多,“群策群力”的技术可能会在没有适当上下文或相关背景知识的情况下,就将事件交到某个人的手中,更不用说问题本可以由某个人解决时,却涉及整个团队这样效率低下的流程了。Quartet的目标是改善其运营指标并减少平均应答时间(MTTA)和平均解决时间(MTTR)。Shabib说:“在PagerDuty的帮助下,这些指标有了很大的改进,事件下降了25%。” 通过利用PagerDuty的分析功能收集指标,团队还可以跟踪过去的事件并评估事件管理过程中的运营效率。
“ PagerDuty具有弹性,并且能够确保您知道应用程序出现问题时的情况。并没有多少服务能够可以提供这些保证。”——Quartet工程主管Mustafa Shabib

2、提供弹性并保证交付
PagerDuty使Quartet能够快速有效地解决事件,并将事件数量减少25%,同时还减少了MTTA和MTTR。“如果我们没有PagerDuty,我们将会让人们感到失望。因为如果我们允许没有解决方案的事件,或者亟待解决的事件发生的话,那将会对人们的生活造成负面影响。Shabib表示,这不仅是业务上的失败,更是面对患者时道德上的失败。