SAP通过PagerDuty彻底改变重大事件快速响应流程

SAP通过PagerDuty彻底改变重大事件快速响应流程

客户→ SAP

SAP 是企业应用软件的市场领导者,客户遍布 180 多个国家/地区。全球超过四分之三的交易收入涉及 SAP 系统。

近年来,SAP 一直在进行业务数字化转型,并将面向客户的服务迁移到云端。作为其在全球云服务(GCS) 团队中的一部分,高级项目经理 Mitchell Rose 负责这些服务的全球正常运行时间。“SAP 的愿景是帮助世界更好地运行并改善人们的生活,”他解释说,“但要做到这一点,我们需要确保影响我们客户的云中断和事件更少且影响更小。”

全球云服务团队的愿景是帮助 SAP 内部的技术团队通过智能中断管理确保他们的云服务和基础设施始终保持运行。“这意味着创建一个可以在 SAP 级别扩展的重大事件服务,帮助我们确保 Ariba、Concur 和 Fieldglass 等服务的正常运行时间,”Rose 说。

阻碍重大事件响应的挑战

考虑到上述挑战,该团队知道在 SAP 规模的组织中开发和推出此类服务将具有挑战性。许多团队都在使用为各自的技术团队定制的内部工具;但是,它们不能在整个组织中扩展。多年来,SAP 的收购导致整个组织使用不同的工具和流程,使得协作和凝聚力变得困难。

“跨团队,有非常不同的运营模式,”罗斯解释说。“运营定义存在差异,‘优先级’这个词对不同的团队有不同的含义。他们还拥有不同的票务系统、ChatOps 工具、流程和实践。为了取得成功,我们需要一个能够映射到我们对重大事件响应的愿景的同类最佳平台。这就是我们采用 PagerDuty 的原因。”

PagerDuty 帮助加快重大事件响应速度

SAP 的全球云服务团队使用 PagerDuty 来协调他们的重大事件响应。自采用 PagerDuty 以来,SAP 改进了其重大事件处理,在两个月内将关键事件的初始响应和通信时间减少了 30%,解决时间减少了 26%

“我们成功地减少了重大事件的影响和持续时间,”Rose 分享道。“借助 PagerDuty,我们能够在正确的时间就正确的问题与正确的人接触。因此,我们在短短两个月内将解决重大事件所需的人数减少了 25%。”

PagerDuty 还帮助改善了团队和利益相关者之间的沟通。当 SAP 需要对影响客户的关键事件(例如云服务中断)进行分类时,SAP 会激活其内部关键响应程序“SWAT”模式。然后,SWAT 团队推动内部业务沟通,包括负责客户沟通的人员。

通过 PagerDuty,SWAT 团队可以访问有关事件状态的实时信息,使他们能够让包括高级管理人员在内的其他利益相关者保持最新状态。因此,使用 SWAT 模式的决定可以更快地做出,在许多情况下有助于将重大事件响应时间从数小时缩短到数分钟。

推动更多的协作和所有权

GCS 已将 PagerDuty 作为其重大事件框架的关键部分,以便他们可以更好地与 SAP 的重大事件管理 (MIM) 团队协作。现在,当发生重大事件时,会通知相关团队(例如 SuccessFactors 或 Ariba MIM 团队)以帮助协调最佳响应。

“PagerDuty 帮助我们围绕重大事件响应的通用运营模型调整核心业务和技术团队,”Rose 说。“通过使用通用框架,我们在严重性和优先级的流程和标准上保持一致。在重大事件期间,我们还在推动明确的服务责任,该事件已扩展到 SAP 级别。”

PagerDuty 的优势

自实施 PagerDuty 以来,SAP 的全球云服务团队改进了卓越运营,其优势包括:

  • 能够让正确的人实时获得正确的信息,优化对重大事件的响应
  • 在两个月内,重大事件所需的响应人员数量减少了 25%
  • 更好的跨团队协作和服务所有权
  • 改进了与更广泛的企业就重大事件进行的实时沟通,帮助实现内部绩效 SLA
  • 减少重大事件的影响和持续时间,响应时间减少 30%,解决时间减少 26%
  • 与各种商业和内部工具无缝集成

“PagerDuty 已成为 SAP 的关键任务,使我们的团队能够协作并快速响应重大事件,并帮助我们继续为 SAP 客户提供世界一流的数字服务,”Rose 总结道。

展望未来

SAP 的全球云服务团队努力改进事件故障排除,并将使用 PagerDuty 事后报告以及过去的事件来帮助解决当前问题。此外,SAP 希望通过创建自动化运行手册来进一步自动化其重大事件响应流程,并使用 PagerDuty 与关键业务影响指标保持一致。

发表评论