在数字优先的环境中,利益相关者必须实时全面了解其关键系统和服务的健康状况,以便他们能够在事件发生时快速安排适当的响应。
在 PagerDuty 之前,CTC 使用传统的仪表板来提醒团队有关服务中断和事件的信息。“我们会看到我们所说的‘红墙’,这实际上是一个充满数百条警报的屏幕,完全不知道受到影响或环境中正在发生什么,”Rotta 解释说。
为了解决这个问题,CTC 实施了 PagerDuty Event Intelligence来自动将警报分组在一起,并减少所有关键任务服务和应用程序的噪音。“在 PagerDuty 之前,我们有时会同时收到 50-200 个警报。有了事件智能,这个数字现在下降到 5-10,”Rotta 解释说。
借助事件智能,CTC 的响应团队还拥有快速解决问题所需的上下文,以免问题对客户产生广泛影响。“在平台内减少噪音和清除警报的能力确实为我们 SRE 团队的人们腾出了大量时间来专注于影响更大的任务,”Rotta 说。
与当今的许多公司一样,CTC 需要继续扩大规模以跟上客户需求和新的创新。尽管速度是 CTC 这样的贸易公司的赌注,但在 AWS 中运行对延迟不敏感的工作负载使 CTC 能够更快地扩展并缩短创意的上市时间。部署到 AWS 的许多新服务都遵循“你构建、你拥有”的方法,PagerDuty 提供了一种单一方式来升级、跟踪和衡量整个公司的事件,而不管谁拥有或支持该服务。
Your article made me suddenly realize that I am writing a thesis on gate.io. After reading your article, I have a different way of thinking, thank you. However, I still have some doubts, can you help me? Thanks.
Your article made me suddenly realize that I am writing a thesis on gate.io. After reading your article, I have a different way of thinking, thank you. However, I still have some doubts, can you help me? Thanks.