PagerDuty使SPS Commerce
保持零售供应链关键服务始终在线

关于SPS Commerce

       SPS Commerce是最大的零售网络,可连接全球90,000多家各种规模的零售企业。公司借助于SPS来简化操作并支持新的订单管理模型,例如直接物流派送给消费者。

       正如SPS技术高级总监Andy Domeier解释的那样:“不同公司的后端系统和技术能力都不一样,这会使得协作变得复杂。不管规模大小,零售商和供应商都需要一起工作,我们提供了全方位服务,可以在我们的网络中与这些公司建立联系。” 他领导着一个技术团队,其中包括站点可靠性工程(SRE),云运营,系统运营和持续改进团队,负责确保网络始终在线并为客户无缝地衔接工作。为了支持公司的发展,Domeier在2013年寻求简化现有的数字业务以更好地扩展规模,满足业务的未来需求。

没有数字运营管理平台的挑战

       随着零售网络的发展,Domeier的团队面临着新的挑战。例如,Domeier的团队在采用新的监视和数据观察工具时看到了噪声得增加。当事件发生时,由于各种监视工具发出的警报声,团队成员争先恐后,但是几乎看不见发生了什么。对于每个问题和受影响的服务,他们也很难通知主题专家(SME)。所以SPS需要一种解决方案来帮助简化此过程,并需要一个平台来帮助管理整个事件生命周期。

       Domeier及其团队面临以下挑战:

  • 合作性:跨组织的不同工具使得跨团队协作变得十分复杂。
  • 可见性:由于充足的监控工具会增加警报噪音,所以团队无法从事件中全面了解其数字运营状况。
  • 责任制:复杂的基础结构使得代码所有权变得混乱,也导致了解决问题的时间成本增加。

     “我们需要一个能与我们的监控工具集成,发送警报并充当枢纽功能的工具,以确保能够将这些警报发送给合适的人。” Domeier解释说。

实施PagerDuty的好处

       Domeier将所有的监视工具和团队集中在PagerDuty上,因此它们可以提高性能的可见性。消除了事件响应过程的摩擦,并使SPS能够保持“组织速度”。借助PagerDuty的广泛生态系统(包含500多个集成),SPS将其所有云监控工具(包括Amazon CloudWatch,Grafana,LogicMonitor,Prometheus,Sentry和Sumo Logic)都连接到了PagerDuty。此外,Domeier的团队还利用PagerDuty与Slack的集成,这样团队就可以在聊天应用程序中触发,响应和解决事件。因此,SPS技术团队顺利过渡了关键服务,通过改善团队监控工具和性能解决方案生态系统的方式,可以对事件实时采取行动。

       近年来,该公司采用了全方位服务的所有权模型,开发人员在生产中拥有自己的代码。全方位服务所有权使SPS团队能够最大程度地减少停机时间并保持一致的客户体验。

     “我们已经看到了积极的内部文化转变,” Domeier解释说。“在此之前,我们的开发团队将其代码交付生产,而对其服务的运行状况和可用性几乎是不透明的。但是,随着我们设计和部署新服务时,使用PagerDuty管理这些服务,使得开发团队可以在部署过程中始终查看其代码,并在事件发生时获得所有权。我们的技术团队是一支由才华横溢,意义非凡的个人所组成的团队!”

       此外,公司的客户成功团队也已开始使用PagerDuty。由于公司的平台必须始终处于打开状态,所以客户成功团队现在可以在客户受到影响之前,主动将客户面临的问题上报给工程团队。他们还利用了PagerDuty将有关特定客户的重要通知路由到技术客户经理,从而提高SPS能够提供的服务质量。

       借助PagerDuty,SPS看到了许多好处,包括:

  • 团队之间能够保持组织的速度和一致性,并具有使用统一平台对事件进行故障排除的能力。
  • 通过查看整个组织的整个技术堆栈中的事件,改善运行状况。
  • 通过全方位服务的所有权模型缩短了事件响应和解决的时间。

       Domeier说:“ PagerDuty的事件数据是提高数据见解的金矿。”

转到远程工作

       在2020年,迫于疫情压力,很多公司不得不进行远程办公,消费者也开始了数字化生活的转型。SPS也是如此,尽管其网络中的工作量很大。使用了PagerDuty,该公司仍然可以顺利过渡到远程工作。“自大流行开始以来,我们发现零售商需要寻找提高效率和节省资金的方法,”多梅尔解释说。“这导致了我们零售网络的使用增加,而且即使我们已经转移到远程工作环境,PagerDuty也能够帮助我们保持组织速度。”

SPS Commerce的下一步是什么?

       SPS计划将PagerDuty嵌入其服务创建过程中,以在构建新产品,功能和服务时简化开发和支持团队。SPS还计划围绕PagerDuty平台构建更多的自动化功能,以便开发人员可以使用PagerDuty的change事件获得有关新代码和服务部署的更多上下文。Domeier还在研究其他PagerDuty产品,例如事件智能和分析,因为他们从平台上看到了新的运营数据。

       Domeier解释说:“ PagerDuty使我的团队能够专注于对我们重要的事情,并继续推动我们的业务向前发展。”