Glovo通过PagerDuty提供一致的客户体验
客户信息
Glovo是一家位于巴塞罗那的初创公司,也是欧洲、西语国家和非洲增长最快的快递企业。以食品为业务核心,Glovo在其覆盖区域内的任何时间都能提供任何产品。该公司目前每年交付超过1亿份订单,在22个国家的400多个城市运营。
应用需求
为了实现在22个国家的400多个城市运营,Glovo需要确保,随着交付服务的不断增长,后端基础设施和核心应用程序也能继续与之同步扩展。Glovo的基础设施和安全工程经理Joan Martinez,主要负责监督Glovo基础设施的可靠性和可扩展性。"作为工程团队的一部分,我们的核心职责是:1)确保关键系统的可靠性和可扩展性;2)通过提供工具和改善反馈回路来支持工程团队的发展,从而在整个组织内创造更多的自主权,"马丁内斯分享道。
为了确保他们的用户和客户获得可靠的体验,Glovo需要重新思考整个组织的事件管理流程。
面临挑战
当Martinez加入Glovo时,PagerDuty已经作为其事件管理平台实施;然而,由于一个由大约60多名工程师组成的团队正在快速增长,只有一个值班响应者负责整个平台。 因此,该团队面临着一些挑战,包括: 1、很难让新的响应者加入到平台中; 2、缺少对关键系统和服务的所有权; 3、由于缺乏跨系统和服务的监测和观察能力,检测时间增加; 4、由于一个工程师轮流值班,平均修复时间更长; 5、对于关键的利益相关者,如服务所有者、用户、合作伙伴和行政领导,对基础设施的健康状况缺乏可见性。
应对方案
为了让更多的团队参与到待命轮换中,马丁内斯的团队采用了DevOps的原则,将PagerDuty整合到他们的事件管理流程中。这包括按服务分解待命轮换,确保所有团队都有熟悉特定服务或应用的人待命,并在整个工程组织中赋予服务所有权。"PagerDuty真正允许我们采用DevOps实践,并真正建立和改进我们现有的流程,而不是撕毁和替换一切,"Martinez解释说。 为了让更多的团队参与到待命轮换中,马丁内斯的团队采用了DevOps的原则,将PagerDuty整合到他们的事件管理流程中。这包括按服务分解待命轮换,确保所有团队都有熟悉特定服务或应用的人待命,并在整个工程组织中赋予服务所有权。"PagerDuty真正允许我们采用DevOps实践,并真正建立和改进我们现有的流程,而不是撕毁和替换一切,"Martinez解释说。 为了进一步改善利益相关者的沟通并持续提供完美的客户体验,Glovo在整个组织内使用PagerDuty现代事件响应。"Martinez解释说:"通常情况下,当你处理一个事件时,你只是专注于解决它,沟通并不是一个高度优先事项。"但有了PagerDuty,我们就可以自动发挥响应作用,并在事件发生的整个过程中自动通知关键利益相关者的状态。这对我们的组织来说是一个非常重要的好处。" 注重整合和团队健康 PagerDuty在帮助Glovo集中其技术栈以改善不同解决方案之间的沟通和协作方面也发挥了重要作用。通过PagerDuty的Slack集成,团队能够在Slack应用程序中触发、回应和解决事件。Glovo还使用PagerDuty的Datadog集成,帮助将其大部分监控数据集中到PagerDuty平台上。此外,Martinez的团队利用PagerDuty与Jira的集成,在事件被触发时自动创建一个票据。"Martinez说:"这种整合使我们的团队能够完全专注于事件而不是后台工作和票据创建过程。 Glovo还使用了PagerDuty Analytics,它让团队深入了解事件管理过程背后的指标,让管理人员更好地了解技术问题,并从流程角度量化团队的健康状况。有了PagerDuty Analytics,管理人员现在可以更好地了解响应者的健康状况,这有助于他们确保值班工程师不会被值班任务压得喘不过气来,并感到疲惫不堪。
使用PagerDuty的好处
通过使用PagerDuty进行数字操作,Glovo看到了一些好处,包括。 通过PagerDuty Modern Incident Response改善了利益相关者的沟通,提高了事件响应过程的自动化程度 通过PagerDuty移动应用程序,能够在任何地方确认、排除故障和解决事件 通过PagerDuty的350多个集成的生态系统,提高整个工具和解决方案的可见性 在关键任务的服务中提高了系统的可靠性,从而改善了用户和客户的体验,缩短了解决的平均时间 通过PagerDuty分析,提高了对需要改进的技术领域和团队健康的可视性 "我们的团队喜欢PagerDuty,因为我们知道它是可靠的,我们可以依赖它,"Martinez说。 未来展望 Glovo专注于建立在DevOps原则的基础上,随着公司服务的扩展,继续在整个基础设施中扩大PagerDuty的使用。Martinez还计划使用PagerDuty与Terraform的集成来消除大量的手工工作,并帮助在团队的现有流程中建立响应自动化。此外,该团队正在研究PagerDuty事件智能,看看AIOps和自动化如何帮助提升数字运营和事件管理能力。