虹科PagerDuty为澳大利亚零售巨头提供始终在线的数字体验

虹科PagerDuty为澳大利亚零售巨头提供始终在线的数字体验

客户→ 澳大利亚零售巨头( Australian Retail Giant)

随着决定将其网站的开发和管理纳入内部,这家零售巨头看到了重塑其技术生态系统的机会。该网站将是第一个使用全新 API 平台的网站,该公司需要实时了解系统以管理和诊断问题。一位首席开发人员分享道:“第一个在新平台上使用新 API 的应用程序是网站。建立成功的在线零售体验对于我们向前发展的战略至关重要。”

支持内部网站启动

虽然工程团队已经成熟,但需要更多可扩展的事件管理流程来支持不断变化的环境。“我们需要各种不同的技术来支持新平台上的这项计划,”首席开发人员解释说。虽然登录成功,但没有简单的方法来提醒团队注意问题。必须有人去查看和理解日志,确定警报是否值得打电话,并找出实际打电话给谁。随着时间的推移,工程的快速交付使得在正确的时间找到正确的人变得具有挑战性。

零售商需要应对这些挑战,以确保网站具有高可用性。中断可能导致生产力损失、收入损失和负面品牌影响。经过审查,团队定义了改进事件响应所需的几项技术要求:

  • 深入了解事件的根本原因
  • 利用随着时间的推移提供智能建议的 AI 功能。
  • 鼓励产品所有权,以减少事件到达正确工程师的时间,并消除不正确的呼叫
  • 管理和衡量 MTTA 和 MTTR

为实现这一目标,该公司需要一个能够丰富可用信息的平台——链接系统之间的依赖关系,并与 ITSM 和 APM 工具同步信息。这将告知谁受到事件的影响以及哪些能力可能会被破坏,并确保将关键工作迅速发送给正确的团队。

将 PagerDuty 集成到生态系统中

PagerDuty 被选为可扩展、易于使用的数字运营平台。PagerDuty 与零售商的现有服务集成,提供整个生态系统的端到端可见性。这使团队能够为关键工作构建一个精心策划的流程,并支持一种产品所有权文化。

与ServiceNow的紧密集成立即证明对事件响应很有价值——映射优先级、在两者之间同步注释以及关闭任一平台上的事件。“能够以非常少的工作量提供大量开箱即用的集成,真是太好了,”首席开发人员分享道。Jira集成用于不需要经过正式 ITSM 流程的警报,例如其他问题的副产品。该团队利用 Jira 内部的工作流程来管理这些警报,在两个平台之间同步笔记。这种集成鼓励了更具弹性的应用程序设计、引导质量日志记录并确保创建高质量的票证。

利用自动化和事件智能

PagerDuty 的 ML 支持的事件管理Event Intelligence帮助自动化事件响应。变更事件提供了态势感知,在代码存储库中显示有关最近部署和发布的关键信息。这对于 Terraform 项目特别有用,可以提供有关何时、何地以及谁进行合并等事件的洞察。

在关键集成到位后,该团队构建了技术服务来路由事件。工程师有权掌握技术服务数据库的所有权,跟踪谁拥有什么。在这些技术服务中创建了依赖关系,从而实现了跨 API 的问题相关性。随着时间的推移,PagerDuty 可以确定事件的潜在影响因素并缩小正确的工程师范围。“我们看到了 AI 镜头对我们的服务和依赖项的好处。” 首席开发人员说。“PagerDuty 帮助我们对我们的服务更有信心,并从工程角度为我们提供了关于技术服务及其状态的真实来源。”

对于零售商来说,了解事件对业务的影响至关重要。使用 PagerDuty 的业务服务,它能够有效地将信息传达给正确的业务利益相关者。更好的是,业务服务的所有者可以订阅警报或查看状态仪表板,以了解正在发生的事情以及解决方案何时到位。“使用 PagerDuty 使我们的服务台能够立即了解特定事件可能会破坏哪些功能,”首席开发人员解释说。

PagerDuty 的优势

借助 PagerDuty,这家零售店使用新的 API 平台成功地在内部推出了新网站。随着更好的事件响应操作到位,该公司旨在为客户提供令人惊叹的在线零售体验,同时让他们自己的员工满意。

团队取得了:

  • 全栈可见性。与现有技术堆栈(包括 ServiceNow、Microsoft Teams、Jira 和 Dynatrace)的集成具有集中操作。AI 正在提供有意义的关联,推动更快地诊断 API 问题的根本原因。
  • 减少解决时间。AIOps 功能消除了事件路由中的手动流程和猜测。可操作的警报会立即发送给正确的工程师。准确的数据提供对事件响应的洞察,帮助团队学习和改进运营。
  • 改善团队健康。在高度集成和明确的产品所有权的推动下,工程师收到的警报越来越少,并且确信他们收到的警报是为他们准备的。
  • 有效的利益相关者沟通。状态仪表板可让团队查看何时发生影响他们关心的业务服务的事件。
  • 全渠道客户体验。为客户带来全新的零售体验,他们现在可以在店内或网上无缝购物。

首席开发人员分享道:“PagerDuty 正在帮助我们了解我们的应用程序,可视化我们的产品健康状况,并营造一种主人翁文化。”

面向未来的强大平台

整个组织都有持续改进的计划。该公司正在探索PagerDuty Analytics,包括用于衡量事件对团队影响的智能仪表板,并将引入事后分析以避免重复错误。它还积极研究最佳实施更多事件智能功能的方法,以帮助团队减少噪音并缩短解决时间。为了进一步简化运营,PagerDuty 将推广到其他团队,包括企业基础设施和安全。

“回顾这一切,我们实现了目标,并拥有一个非常强大的平台,我们可以在此基础上进行构建,”首席开发人员说。

发表评论