PagerDuty帮助Loft Orbital快速实现事件响应的提升

PagerDuty帮助Loft Orbital快速实现事件响应的提升

下一场伟大的太空竞赛正在进行中。如今,有多家公司竞相争夺到 2040 年价值超过 1 万亿美元的全球航天工业份额。然而,由于高昂的成本和复杂的工程要求,大多数组织仍然无法将卫星发射到太空。现在,由于创新的卫星即服务公司Loft Orbital,任何组织都可以购买到共享卫星的门票,并将数据采集技术发射到太空,而成本只是自己动手的一小部分。

Loft Orbital 于 2017 年推出的卫星即服务商业模式正在撼动航天工业。Loft Orbital 在定期安排的卫星发射上运送客户有效载荷,并作为一项服务处理整个任务。例如,假设客户想将相机发送到太空以分析天气。Loft Orbital 会将相机添加到其即将发射的卫星中,并根据客户要求在相机进入太空后处理数据收集过程。

了解情况的严重性

John Murray 是 Loft Orbital 公司卫星运营和软件工程团队的高级成员。他帮助构建和管理公司专有的地面控制软件 Cockpit,这是一种用于卫星运营的一体化解决方案。工程师通过 Cockpit 控制一切,从任务规划到卫星和地面站之间的通信。Cockpit是高度自动化的,降低了人为错误的风险,同时为 Loft Orbital 的工程师和客户的要求简化了操作。

Murray 受聘时的首要任务之一是实施一个可以提供 24/7 全天候支持的事件响应系统,为他们的首次卫星发射做准备。该系统需要根据快速增长的业务进行扩展,并与 Loft Orbital 现有的技术堆栈(如 Grafana)集成。Loft Orbital 需要一个具有稳定的API且易于定制的解决方案。

能够快速响应事件是一个关键的优先事项。Loft Orbital 在太阳同步轨道上运行低地球轨道卫星,因此卫星定期经过地面站,或位于南北极的用于与卫星通信的大型卫星天线。太平洋大部分地区没有地面站,所以有时候Loft Orbital 的卫星没有与地面接触。这意味着,如果工程师错过了纠正问题的机会,他们至少要再过 45 分钟才能做出响应。“紧迫性是关键,因为太空中的事情往往会很快像滚雪球一样越来越多,”Murray 解释说。“迅速的反应为我们节省了大量的时间和金钱。”

另一个要求是重新考虑任务指挥中心。“传统上,20 人或更多人的团队会 24/7 全天候在一个房间里保持卫星的健康和运行。我们希望只有在出现需要修复的问题时才接到电话,尽管我们通常至少有一个人值班来执行某些手动任务和维护,”Murray 解释说。“自动化是基础——我们需要能够快速将我们的业务扩展到 5、10 或 100 颗卫星,而无需扩展人员。”

Murray以前在另一家公司任职时曾使用过PagerDuty,并且熟悉其功能。“毫无疑问,PagerDuty 是解决我们问题的最佳解决方案。”

值得信赖的解决方案

Loft Orbital 能够快速实施 PagerDuty,并将其与 Cockpit 和 Grafana 无缝集成。如果Grafana确定卫星存在遥测问题,例如温度异常或电池电压过低,它会在 PagerDuty 中触发警报,工程师能够快速做出响应。此外,PagerDuty 的敏捷 API能够轻松与 Cockpit 集成,以便在软件本身出现性能问题时发出警报。“自从采用 PagerDuty 以来,团队已经承认并迅速解决了所有事件,让我们完全信任我们的事件响应流程,”Murray 解释说。

Loft Orbital 还受益于 PagerDuty 的简单性;PagerDuty 的界面非常容易上手,新员工可以在几个小时内支持卫星操作。“PagerDuty 是我可以提供给用户的东西,而不必担心如何确保他们意识到问题的广泛培训,以便他们可以专注于问题解决培训,”Murray 解释说。“这个软件很简单,你可以把它交给新员工,一个小时后他们就可以开始工作了。” 此外,员工可以根据自己的喜好对警报进行个性化设置,以确保尽可能有效地通知他们,这在管理具有不同工作与生活平衡方法的全球团队时非常理想。

PagerDuty 加强了 Loft Orbital 团队之间的协作。该公司不遵循传统的层次结构,而是授权工程师在出现服务和事件时对其进行管理,同时通过跟踪问题和解决方案来确保整个团队的意识。当出现问题时,PagerDuty 会根据设置的与时区一致的升级策略向相关专家发出警报,最大限度地减少非工作时间的干扰和停机时间,同时记录问题以供将来参考。“PagerDuty 极大地简化了我们团队的生活,”Murray 解释道。“以前,工程师们被困在一个他们不知道主题专家是谁的位置上,但 PagerDuty 帮助消除了这种情况,现在可以实现无缝协作。”

“PagerDuty 是将人工监控与自动响应相结合的粘合剂,使我们能够快速扩展业务,”Murray 说。“有了 PagerDuty,我可以离开办公桌,过上我的生活,因为我知道我的团队可以在紧急情况下联系我,而且我有办法回顾其他人解决的任何问题。”

任务完成:快速事件响应的文化

PagerDuty 使 Loft Orbital 能够快速扩展其业务并为其卫星提供 24/7 全天候支持,而无需传统的指挥中心或需要以与其星座增长相同的速度雇用额外的工作人员。公司可以自信地满足所有客户的 SLA,让他们专注于对他们来说重要的事情——他们的数据或服务。

展望未来,Loft Orbital 计划将 PagerDuty 推广到不同的工程团队。通过向平台添加更多用户,团队将能够创建更可靠的响应编排结构以及跨团队问题跟踪和解决。当事件发生时,每个人,无论其角色如何,都知道将警报升级给谁。Loft Orbital 正在建立一种文化,在这种文化中,每个人都感到有权对事件进行分类和排除故障,而不必担心失误或造成不便。该公司还在考虑探索PagerDuty 的事件智能功能,以进一步提高其事件响应流程的效率。

发表评论