You are currently viewing PagerDuty帮助CTC改变远程世界的运营

PagerDuty帮助CTC改变远程世界的运营

客户→ 芝加哥贸易公司

Chicago Trading Company (CTC) 成立于 1995 年,是一家专门从事各种产品、服务和策略的市场交易的衍生品交易公司。CTC 积极交易广泛的资产类别,包括股票、利率和商品。其交易柜台每周 6 天、每天 20 小时开放,该公司被公认为全球众多股票和衍生品交易所的流动性和定价领先提供商。

由于市场以微秒级波动,因此 CTC 的关键应用程序和服务需要始终在线并在用户收到通知后随时可供用户使用,以便每次都能提供一致的客户体验。CTC 的 SRE 和可观察性经理 Luke Rotta 解释说:“由于我们的服务直接与公开市场相关联,停机时间不是一种选择。” “如果我们不在市场上,我们就没有参与到这个机会中——这是一个错失的机会。” Rotta 负责管理 CTC 的可观察性,并监督 SRE 团队,该团队支持、自动化和提高预生产和生产环境的正常运行时间。

实施PagerDuty 之前遇到的挑战

在实施 PagerDuty 之前,Rotta 的团队经历了几个挑战,包括:

  • 手动待命目录以及过时的时间表和轮换导致响应延迟
  • 在非工作时间与待命响应者沟通困难
  • 响应过程缺乏自动化,导致待命响应者需要更多的手动工作
  • 遗留仪表板中充斥着无法操作的事件和警报,导致事件确认和解决延迟
  • 警报风暴降低了团队了解事件构成和有效响应事件的能力

随着最近对远程工作的推动,CTC 被迫迅速将运营转向数字优先模式。此外,市场波动加剧意味着其客户也增加了交易频率,这使得 CTC 交易平台始终保持正常运行变得比以往任何时候都更加重要。

为了帮助实现这一目标,CTC 需要重新考虑其事件管理流程,同时继续保持和提供一致的客户体验。这意味着 Rotta 的团队需要将精力重新集中在日常运营上,而不是长期项目上——而且所有这些都在一个新的、远程优先的环境中。“我们的团队专注于确保系统能够处理增加的容量并为市场提供流动性,以让我们的客户满意,”Rotta 分享道。

优先考虑沟通和协作

在去远程之前,大部分信息都是在办公室里口头交流的。现在,随着整个公司的远程工作,跨团队有效沟通和协作的能力比以往任何时候都更加重要。PagerDuty 帮助 CTC 将其事件通信渠道转变为完全数字化。“PagerDuty 真正教会了我们如何远程启动事件,并让我们能够集中我们的事件管理流程,以便将团队快速整合到一个渠道中,并直接从那里做出决策。”

CTC 还利用 Slack(PagerDuty 的600 多个集成生态系统的一部分)来改善团队之间的事件沟通和协作,以及进行事后分析。借助Slack 集成,团队可以直接在 Slack 界面内创建、响应和解决 PagerDuty 事件,从而减轻多个沟通渠道的压力,并允许所有必要的团队一起处理事件。“由于现在所有团队都处于远程状态,我们只是直接在 Slack 中创建事件。剧本告诉每个人要跳进哪个 Zoom 房间,然后我们就出发,”Rotta 分享道。

提高运营可见性

在数字优先的环境中,利益相关者必须实时全面了解其关键系统和服务的健康状况,以便他们能够在事件发生时快速安排适当的响应。

在 PagerDuty 之前,CTC 使用传统的仪表板来提醒团队有关服务中断和事件的信息。“我们会看到我们所说的‘红墙’,这实际上是一个充满数百条警报的屏幕,完全不知道受到影响或环境中正在发生什么,”Rotta 解释说。

为了解决这个问题,CTC 实施了 PagerDuty Event Intelligence来自动警报分组在一起,并减少所有关键任务服务和应用程序的噪音。“在 PagerDuty 之前,我们有时会同时收到 50-200 个警报。有了事件智能,这个数字现在下降到 5-10,”Rotta 解释说。

借助事件智能,CTC 的响应团队还拥有快速解决问题所需的上下文,以免问题对客户产生广泛影响。“在平台内减少噪音和清除警报的能力确实为我们 SRE 团队的人们腾出了大量时间来专注于影响更大的任务,”Rotta 说。

与当今的许多公司一样,CTC 需要继续扩大规模以跟上客户需求和新的创新。尽管速度是 CTC 这样的贸易公司的赌注,但在 AWS 中运行对延迟不敏感的工作负载使 CTC 能够更快地扩展并缩短创意的上市时间。部署到 AWS 的许多新服务都遵循“你构建、你拥有”的方法,PagerDuty 提供了一种单一方式来升级、跟踪和衡量整个公司的事件,而不管谁拥有或支持该服务。

PagerDuty的优势

自从实施 PagerDuty 以来,CTC 已经看到了一些好处,包括:

  • 使用PagerDuty Event Intelligence减少警报疲劳并改进事件响应
  • 所有关键系统和服务的平均确认时间/平均响应时间 (MTTA/MTTR) 更快
  • 改进了日常事件管理和自动将事件从一个班次转移到另一个班次的能力
  • 与场内高级交易员的开放式沟通渠道,可在需要时将事件上报给跨时区的待命经理
  • 在 AWS 上运行的 24×7 应用程序的无缝事件管理体验

PagerDuty 还帮助支持 CTC 的业务连续性战略。“在这个新的远程环境中,员工可能会感到与正在发生的事情脱节,我们正试图通过 PagerDuty 解决这个问题。几乎公司的每个人都在 PagerDuty 平台上,无论他们是利益相关者还是完整用户,”Rotta 分享道。

展望未来

CTC 计划继续在整个组织范围内扩展其对 PagerDuty 的使用。例如,公司决定更多地关注指标来为未来的行动提供信息,因此 Rotta 的团队正在研究运营审查以及PagerDuty 分析和智能仪表板,以帮助更好地了解团队健康和事件的业务影响,衡量 SLA ,并获得与执行领导层无缝共享指标的能力。“这有助于推动围绕我们需要投资哪些应用程序的决策,”Rotta 解释说。

此外,虽然 CTC 已经在 Status Dashboards 中设置了所有主要业务服务,但该公司正在寻求通过提高执行领导层对事件或服务状态的可见性来扩大其在整个公司的使用范围。随着 PagerDuty 平台与 CTC 一起发展,Rotta 和他的团队期待将平台的功能扩展到其基础设施的其他部分。“我喜欢它很简单。我不需要管理任何东西,因为它只是完成它的工作,”他分享道。

这篇文章有 2 个评论

  1. gate.io türkiye

    Your article made me suddenly realize that I am writing a thesis on gate.io. After reading your article, I have a different way of thinking, thank you. However, I still have some doubts, can you help me? Thanks.

  2. gate io

    Your article made me suddenly realize that I am writing a thesis on gate.io. After reading your article, I have a different way of thinking, thank you. However, I still have some doubts, can you help me? Thanks.

发表回复