Xero利用PagerDuty和ChatOps改善事件响应和数字化运营。

light bulb, lights, bokeh

Xero是面向会计师、簿记员和小型企业的全球小型企业平台。该平台成立于2006年,为小型企业所有者及其顾问提供自动的银行和信用卡帐户提要、发票、应付账款以及标准的业务和管理报告。Xero具有易于使用的直观界面,因此,即使是几乎没有记账经验的小型企业所有者也可以准确地说明其交易。

Xero在美国、英国、亚洲、澳大利亚和新西兰设有办事处,在全球180多个国家/地区拥有120万订户,依靠Xero的软件来帮助其开展业务。因此,确保Xero平台的可靠性非常重要,该责任由公司的开发人员和SRE工程师承担。

挑战性

SRE工程师团队负责人之一Anthony Angell解释说,几年前,他加入Xero时,Xero已经使用PagerDuty来管理两个日程表了,其生产环境得到了位于新西兰奥克兰和科罗拉多州丹佛市的运营团队的支持。但是,随着Xero继续快速增长,在两个站点上扩展,协调日程安排以及升级策略,对于运营团队来说变得越来越具有挑战性。

2016年,Xero实施了包含站点可靠性工程(SRE)的DevOps方法来管理生产环境并全面改进其事件管理流程。这个新的事件管理框架没有让运营团队监督整个生产环境,而是依靠软件构建团队。在发生事件时可以联系到他们,并随时待命——无论是开发人员还是QA工程师。

这意味着将更多的人和团队添加到通话时间表中,并且Xero需要一种管理和扩展通话组的方法,这就是PagerDuty的来历。Angell说:“ PagerDuty帮助我们扩展了通话时间。业务部门中的小组呼叫也变得非常容易,它还为我们和企业提供了更好的支持结构。”

商业价值

借助PagerDuty,SRE团队能够对其他团队进行事件管理以及警报工作方式的教育,帮助客户缩短问题的解决时间,因为开发,构建和继续维护代码的人员也是问题出现时的第一响应者。Angell说:“通过不同的方法及时掌握,提高事件响应者的能力,增加了很多商业价值。”

为了进一步自动化和扩展事件管理流程,Xero的SRE团队利用ChatOps为全球数百名员工提供支持。Xero的本地聊天机器人“ Multivac”也已经集成到该公司的Slack帐户中,并利用PagerDuty的API来自动执行Xero事件管理框架中的多项关键活动。通过使用Multivac,Xero可以通过向Xero的Github存储库发送请求以自动启用配置,来组建新团队并按计划进入PagerDuty。事件经理可以使用Multivac来通知合适的团队成员,在PagerDuty中启动事件响应过程,并为事件创建唯一的Slack渠道。用户还可以请求最近生产版本的状态更新或来自Multivac的活动警报,更快地对事件进行故障排除。通过将许多事件活动放到Multivac和PagerDuty上处理,Xero能够更快地响应和解决事件。

“从2017年1月到2018年1月的一年时间里,PagerDuty分析向我们显示,我们发现高紧急警报减少了40%。不仅如此,用于高紧急警报(最高紧急级别)的MTTR下降了74%。”

通过PagerDuty改善工作与生活的平衡

Xero的核心价值观之一是“人”,它非常重视人,并且该公司通过分析功能来深入了解团队的健康状况,从而扩大了对PagerDuty平台的使用。Angell解释说:“分析见解对我们的经理,特别是其他团队的经理很有帮助,因为他们可以从数据中看到他们的团队在特定时间段内收到了多少警报。” “当我们需要仔细研究工程师疲劳的原因时,这很有用。例如,我们想知道呼叫响应者是否在短时间内收到异常大量的警报,因为这可能使他们处于精疲力尽的风险。”

此外,Angel关于PagerDuty的最喜欢的部分是如何为团队提供呼叫调度方面的灵活性和所有权。现在,Xero不再像以前那样让一个团队俯瞰一切,而是让许多分布式团队有权管理自己的通话时间表。Angell说:“我们已经在事件管理,警报和PagerDuty的工作原理等方面培养了很多团队的能力,实际上它也为企业提供了更好的MTTR,”

未来展望

Xero正在广泛的用户和用例中扩展其对PagerDuty数字运营管理平台的使用。该公司目前已经采取了一些措施来自行评估团队的健康状况,他们希望通过采用PagerDuty的运营健康管理服务(OHMS)更深入地了解其团队的绩效。