Tokopedia通过PagerDuty
实现了事件响应的自动化并看到了更大的工程师责任感

客户信息

印度尼西亚科技公司Tokopedia是东南亚最大的市场业务之一,每月有超过1亿的活跃用户和9百万的商家。Tokopedia不仅以市场为荣,还提供使数百万商家参与电子商务的技术。
Rajesh Gopala Krishnan是Tokopedia的工程生产力副总裁,并执行该平台的共享技术和服务愿景。他解释说:“ Tokopedia的使命是通过技术使商业民主化,我们帮助小零售商成为大品牌,使他们能够接触到更多的客户群,并使他们更容易在印尼及其他地区开展业务。”
Tokopedia于2009年获得“数字化出生”的称号,两年前客户群迅速扩大时,便致力于数字化转型。Tokopedia实现了其技术堆栈的现代化,从单一基础架构转变为基于微服务的多云架构,可运行350多种服务。

应用需求

向更加动态,可扩展的体系结构的转变使得Tokopedia的内部事件管理工具难以跟上警报的要求,也难以使其团队有效地做出响应。这意味着事件响应需要花费更长的时间,并使工程资源无法改善客户体验并为商家和客户建立新的服务。Tokopedia还遇到了大量警报噪音,因此很难确定事件的优先级。
克里希南解释说:“我们的工具可以识别事件,但是解决这些问题花费的时间太长,大多数时间通常需要30分钟才能解决,因为在通知工程师和设置作战室以解决问题之前,我们会手动查找负责特定服务的人员问题。我们很快意识到,我们需要一个现代化的自动事件响应流程来获得对这个复杂环境的可见性,这就是我们选择PagerDuty的原因。”

应用效果

1、使用PagerDuty自动执行事件响应
自采用PagerDuty以来,Tokopedia现在能够自动化其事件响应流程并减少解决事件所需的时间。在最初将PagerDuty与五种服务集成之后,Tokopedia看到了诸如平均修复时间(MTTR)等指标的显着改善,并决定将部署扩展到所有350多种服务。
此外,PagerDuty还有助于减少警报噪音。“ PagerDuty不会被警报轰炸,而是将警报关联到一个事件中,所有详细信息都集中在一个地方,而不是分散在多个工具中。这不仅减少了警报噪音,而且还帮助我们确定了最紧急事件的优先级。”
Tokopedia在数字转换和现代事件响应方面的投资也意味着它已做好充分准备,以应对东南亚发生COVID-19大流行之后的需求高峰。“通过迁移到云并采用PagerDuty,我们已经能够更好地控制我们面临的事件数量。在COVID-19爆发期间经历的在线购物激增中,这尤其重要,这意味着我们可以更快地响应事件,以确保对卖家和购物者的干扰降到最低。”

2、缩小问责制差距
PagerDuty还帮助Tokopedia拥有全方位服务的所有权,并树立了责任文化,而这以前是其内部事件管理工具难以做到的。
正如克里希南(Krishnan)解释的那样,事件发生时通常不清楚是谁应对。“问责制缺失了—谁负责这项服务或应用程序?他们看到问题了吗,他们正在努力解决问题吗?我们对此并不十分清楚。”
待命工程师还携带其他电话供团队在出现警报时与他们联系。但是即使那样,要找到合适的人还是很棘手的,因为没有集中的方法来管理升级。“借助PagerDuty,我们已经能够消除手动事件响应流程。相反,当出现警报时,我们将根据我们的升级策略自动将事件路由到负责特定服务的任何人。” Krishnan解释说。

3、PagerDuty的好处
在实施PagerDuty之后,Tokopedia已对其环境中的事件有了更深入的了解和控制,其优势包括:
(1)工程团队之间的问责制更强;
(2)减少警报噪音;
(3)更快的事件响应时间;
(4)通过使用自动化提高团队生产力,每天将软件更新从10个增加到300个以上。
“自采用PagerDuty以来,我们的工程师在事件响应方面的花费减少了。相反,他们能够专注于改善客户体验,了解我们的商人和客户的需求以及他们如何使用我们的服务。” “借助PagerDuty对自动化的支持,工程师的工作效率也大大提高了。我们将每日软件部署增加了3,000%。”

未来展望

Tokopedia将继续扩大对PagerDuty的使用。其中一部分涉及在部署新功能之前监视其性能,以在生产环境中发现问题之前将其识别出来。此外,随着Tokopedia在整个软件交付周期中继续采用自动化并构建可自我修复的应用程序,PagerDuty将在创建工作流和运行手册以预防,诊断和解决事件而无需将事件升级为事件的过程中发挥至关重要的作用。