PagerDuty帮助CTC改善偏远地区的运营
CTC
芝加哥贸易公司(CTC)成立于1995年,是一家衍生品交易公司,专门从事各种产品,服务和策略的市场交易。CTC积极交易广泛的资产类别,包括股票,利率和商品。它的交易台每周开放六天,每天20个小时,该公司被公认为是全球众多衍生品交易所中流通性和定价的领先提供商。
由于市场瞬息万变,所以CTC的关键应用程序和服务必须始终保持在线状态,并能够在瞬间通知用户,提供始终一致的客户体验。CTC SRE和软件基础架构经理Luke Rotta解释说:“由于我们的服务直接与公开市场挂钩,因此停机是不能发生的。如果我们不在市场中,那么我们就不法参与市场,错失良机。” Rotta负责管理构建和交付应用程序的软件基础架构团队,并监督监视CTC的SRE团队。
应用背景
在实施PagerDuty之前,Rotta的团队经历了多项挑战,其中包括:
- 手动的呼叫目录,时间表和轮换超时造成了延迟响应
- 非工作时间与通话响应者之间的沟通变成了阻碍
- 响应流程中缺乏自动化功能,导致需要进行更多的人工工作
- 旧版仪表板杂乱无章的事件和警报,导致响应人员在事件确认和解决方面的延迟
- “警报风暴”降低了团队对事件的认知和有效响应事件的能力
随着远程工作的推动,CTC被迫将操作迅速转变为数字优先模式。此外,由于市场波动加剧,也意味着客户增加了交易频率,所以CTC交易平台始终保持正常的运行比任何时候都更加重要。
而为了实现这一目标,CTC需要重新考虑其事件管理流程,同时继续保持并提供一致的客户体验。这意味着Rotta的团队需要将工作重心放在日常运营而不是长期项目上,并且所有这些工作都要在一个新的,远程优先的环境中进行。Rotta表示:“我们的团队专注于确保系统能够处理增加的容量,并向市场提供流动性,以确保我们的客户能够满意。”
应用效果
1、优先沟通与合作
在远程办公之前,大多数信息都是在办公室通过口头传达。现在,随着整个公司的远程工作,跨团队进行有效沟通和协作的能力比以往任何时候都更加重要。PagerDuty帮助CTC将事件通信渠道转变为完全数字化。“ PagerDuty教会了我们远程启动事件,并允许我们集中事件管理流程,以快速将团队聚集到一个渠道中,并直接从那里做出决定。”
CTC还利用Slack(PagerDuty生态系统的一部分,该生态系统包含350多种集成)来改善团队之间的事件沟通和协作,以及进行事后调查。借助Slack集成,团队可以直接在Slack界面内部创建,响应和解决PagerDuty事件,从而减轻了多个沟通渠道的压力,并使所有必要的团队可以共同应对该事件。“由于所有团队现在都处于远程状态,我们只是直接在Slack中创建事件。Playbook会告诉所有人,要进入哪个Zoom房间,或者离开哪一个房间” Rotta说。
2、改善运营可视性
在数字优先的环境中,至关重要的是,利益相关者必须实时了解其关键系统和服务的运行状况,以便他们能够在事件发生时快速组织适当的响应。
在PagerDuty之前,CTC使用传统的仪表板来警告团队有关服务中断和事件的信息。Rotta解释说:“我们会得到我们所说的’红色墙’,这实际上是一个充满数百个警报的屏幕,但是我们对环境中正在受到的影响或正在发生的事情还是一无所知。”
为了解决此问题,CTC实施了PagerDuty事件智能,自动地将警报分组在一起,并降低所有关键任务服务和应用程序的噪音。“在PagerDuty之前,我们有时会同时收到50-200条警报。而借助事件情报,该数字现在已降至5-10了,” Rotta解释道。
借助Event Intelligence,CTC的响应团队还具有他们需要的背景信息,可以在问题广泛影响客户之前快速解决。Rotta说:“减少噪音并清除平台内警报的能力确实为我们的SRE团队腾出了很多的时间,专注于影响更大的任务。”
PagerDuty的好处
自从使用PagerDuty以来,CTC已经看到了许多好处,其中包括:
- PagerDuty事件智能,降低了警报疲劳并改善事件响应
- 跨所有关键系统和服务的平均应答时间/平均应答时间(MTTA / MTTR)变得更快
- 改进的日常事件管理以及自动将事件转移到不同班次的能力
- 与现场高级交易员进行开放式沟通,可以在需要时将事件升级,通知跨时区的待命经理
PagerDuty还有助于CTC的业务连续性战略。“在新的远程环境中,员工可能会感觉与正在发生的事情脱节,我们正在尝试使用PagerDuty解决这个问题。Rotta表示:“无论是公司的利益相关者还是正式用户,公司几乎每个人都在PagerDuty平台上。”
未来展望
CTC计划继续在整个组织范围内扩展对PagerDuty的使用。例如,公司决定将更多的精力放在衡量指标上,以告知未来的行动,因此Rotta的团队正在研究运营评价,以及PagerDuty Analytics和Intelligent Dashboards,从而帮助团队更好地了解健康状况和事件对业务的影响,SLA的评估 ,以及与执行领导层无缝共享指标的能力。Rotta解释说:“这有助于围绕我们所需要投资的应用程序做出决策。”
另外,尽管CTC已经在Status Dashboards中设置了所有主要业务的服务,但该公司仍然希望提供高管领导层对事件或服务状态的可见性,从而将其使用范围扩展到整个公司。PagerDuty平台的使用随着CTC的发展而增长,Rotta和他的团队期待着将该平台的功能扩展到基础架构的其他部分。他分享说:“我喜欢这很简单,不需要管理任何事情,因为它能够完成工作。”
要了解PagerDuty如何帮助您的团队简化工作并在数字世界中转变运营方式,请联系我们。