You are currently viewing SailPoint通过PagerDuty确保数字运营成熟度

SailPoint通过PagerDuty确保数字运营成熟度

客户→ SailPoint

SailPoint 是现代企业身份安全领域的领导者,帮助全球复杂的公司建立以身份安全为基础的安全基础。利用人工智能和机器学习的力量,SailPoint 实现了访问自动化,只在正确的时间提供对正确身份和技术的所需访问。

随着公司遇到越来越多且越来越复杂的网络安全威胁,SailPoint 经历了持续增长。此外,COVID-19 大流行促使更多人居家工作,给公司所有者带来了新的安全风险。随着安全形势的不断发展,SailPoint 的 DevOps 团队必须进行创新并寻找新的工作方式。

Omar Lopez 是 SailPoint 云产品的 DevOps 经理。他的团队负责与可观察性相关的所有事情,从指标和日志记录到跟踪和警报——任何使 SailPoint 能够在问题成为客户问题之前识别和解决问题的事情。“我们产品的正常运行时间对我们在 SailPoint 的使命非常重要,”洛佩兹说。

迎接严峻的挑战

为了优化其不断壮大的 DevOps 团队的运营,SailPoint 最近对团队进行了一些结构性调整,包括组织较小的团队和采用基于服务的所有权模型。让人们处于这种文化转变的中心是洛佩兹的首要任务。

“我的工程师的幸福对我来说非常重要,”洛佩兹说。“当我加入 SailPoint 时,一名工程师很难处理与 DevOps 相关的所有事情。同样清楚的是,我们需要改进我们的待命流程减轻负担。我们的团队真的成长了,我们的目标是转向全面的服务所有权。”

SailPoint 还寻求改进分析,以支持更顺畅的交接并减轻随叫随到的负担,从而改善其工程师的团队健康状况。“在实施全面服务所有权之前,随着公司的发展,我们面临的挑战是拥有足够的带宽来正确解决每一个问题,并且随着公司的发展,我们增加了更多的人员和技术,”DevOps 工程师 Caitlin Green 解释说。

转向服务所有权

SailPoint 已经在使用 PagerDuty,但希望通过改进运营实践(包括改进协调响应)来更好地利用其投资。

SailPoint 将 PagerDuty 与监控工具Prometheus集成。Prometheus 向 PagerDuty 发送警报,然后将警报路由到由 Rulesets 定义的服务所有者。“PagerDuty 的全球规则集意味着我们可以将警报直接发送给特定服务的合适的待命工程师,而不是发送给必须弄清楚应该将其发送给谁的分流工程师,”Lopez 说。“这对我们来说是一个改变游戏规则的人。”

SailPoint 还将 PagerDuty 与Slack集成,以帮助管理优先级较低的事件,从而减少工作和个人生活之外的工作中断。

PagerDuty 已成为 SailPoint 服务所有权模型的重要组成部分,使团队能够解决影响其服务的问题负责并减轻分流团队的压力。由于 SailPoint 接受了服务所有权,其 DevOps 团队发现针对其团队的事件数量下降了 85%。“借助 PagerDuty,我们能够将关键工作重新分配给合适的人,”Greene 补充道。

通过自动化优化流程

SailPoint 正在使用自动化增强工作流程。例如,通过在AWS CloudWatch上启用智能警报分组 (IAG),SailPoint 减少了噪音并加快了响应速度。以前,一个数据库故障会触发 60 多个警报,不断地打断待命工程师。通过利用 IAG,SailPoint 将所有警报浓缩为一个事件,供工程师确认和解决,从而腾出时间来解决问题。

SailPoint 还自动化了将监控构建到服务中的方式,为工程团队创建了一个自助服务流程。Lopez 解释说:“随着我们过渡到服务所有权,我们专注于将我们所有的工程团队、服务和微服务都纳入 PagerDuty。我们付出了很多努力来自动化这个过程。我们使用 Terraform 构建了一个自助服务工具,所有工程团队都可以利用该工具创建自己的服务,并通过代码为这些服务创建自己的规则,而无需 DevOps。”

跨工程和客户服务无缝协作

SailPoint 正处于将其客户支持团队引入事件响应流程的早期阶段。通过将客户支持加入 PagerDuty,SailPoint 工程师可以为服务代表提供相关背景信息。

DevOps 总监 Matt Smith 解释说:“如果出现问题,我们的目标是更积极主动地与客户联系,让他们在他们看到之前就知道我们正在处理它。”

PagerDuty 的优势

通过实施 PagerDuty,SailPoint 已经成熟了其数字运营并更接近其服务所有权的目标,其优势包括:

  • 通过提供单一的控制界面,更好地了解系统
  • 减少 MTTR 和 MTTA
  • 减少随叫随到的疲劳和减少非工作时间的中断,从而改善团队健康
  • 智能警报分组 (IAG) 将多个警报压缩为一个,从而加快分类时间

“PagerDuty 为我们提供了继续实现服务所有权所需的工具,”Lopez 说。“重要的是,PagerDuty 还使我们能够减少随叫随到的疲劳并提高工程师的幸福感——这是我们的首要任务之一。”

Matt 补充说:“在组合中加入 PagerDuty 对我们如何管理我们的待命响应非常有益。PagerDuty 帮助我们将责任分配给特定的工程师,赋予明确的所有权和透明度,并使我们能够跟踪哪些团队正在处理以及哪些事件仍未解决。”

计划进一步利用 PagerDuty 的功能

SailPoint 继续走上全面服务所有权的道路,并正在让更多的工程团队加入 PagerDuty。该公司还在研究如何利用 PagerDuty 的更多功能来完善其事件响应框架。在更广泛的事件中,它计划使用 PagerDuty 与跨部门团队(包括客户服务、产品管理和执行领导)进行更好的沟通和协调。

发表评论