数据可观察性可以让您成为云数据FinOps专家

数据可观察性可以让您成为云数据FinOps专家

当数据库是一个服务器,而不是无服务器。当数据被存储在结构化的表格中,而不是自由的数据湖时。当计算你的数据投资的回报是简单明了的。只要把你的数据项目产生的年度价值,减去你的硬件和软件的摊销成本,IT管理人员的工资,也许还有你的数据中心的能源消耗成本,就可以了。剩下的东西就是你的投资回报率。

那些日子早就过去了。今天,管理IT成本和最大化投资回报率是如此困难,以至于产生了一个全新的专业,叫做FinOps。而云只是其中的一部分原因。跟踪和控制IT成本,包括你的数据成本,是如此困难,主要有四个方面的原因:

1.您的数据基础设施和数据管道比以前更加复杂和庞大

不管愿意与否,如今大多数公司都运行着庞大的混合基础架构。他们将数据存储在本地、托管服务器和SaaS云中。他们使用旧式SQL关系数据库、新式NoSQL键值存储和尖端云数据仓库(如 Snowflake)来提供数据。

他们使用Kafka流式传输实时数据,并从Databricks Lakehouse向ML应用程序提供数据,所有这些都是为了成为数据驱动型的企业。然而,他们部署的尖端云原生数据应用程序越多,他们的基础设施就越复杂。

尽管许多数据供应商自诩为一站式商店,但现实是,大多数企业还没有准备好在一个单一的供应商上实现标准化。一些公司在松散的组织、多年的整合项目中投资了数百万美元,但这些努力的巨大范围导致大多数公司放弃它们,而他们的数据基础设施却在继续扩大。极少数成功标准化到单一SaaS数据供应商的公司会发现自己处于一个新的快车道上,创造了不同类型的高操作复杂性。

2.云成本是动态的,使预测变得不稳定

企业最初被SaaS云的便捷和低启动成本所吸引。但是,使云计算如此便宜的东西–其基于利用率的定价–也使得它比像服务器这样的资本投资或典型的托管虚拟机的统一月费更难进行预算。

近乎无限的可扩展性和现收现付的定价相结合,使云计算成本非常不稳定。事件流中的传输错误可能导致传入的数据被重新发送,从而导致数量激增。在节假日期间,使用你的外部个性化引擎的客户激增也会造成这种情况。匆忙推出的新应用呢?被遗忘但仍在运行的数据管道呢?开发人员在优化查询性能的同时忽略了成本呢?这些都成了不可控因素。

虽然云计算的蜜月期早已结束,但IT和数据团队仍在为跟踪和预测他们的云计算运营费用(op-ex)而努力,但并不成功。因为他们无法衡量的东西,他们就无法控制。

3.无论有意还是无意,云计算供应商都不会让它变得简单

虽然SaaS供应商按使用量收费,但他们自己的成本往往是固定的。他们推动的使用量越大,他们产生的利润就越多。他们敲打着快捷的鼓,所以我们会迅速建立和启动应用程序。或者他们默认关闭了使用警报和支出保护。或者他们提供的月度账单缺乏细节,使客户无法正确地将数据成本记入正确的部门、项目或管道。

并非所有这些都是故意的。今天的数据管道很复杂。例如,购物网站的消费者推荐引擎可能会提取用户过去的购物历史、他们在其他网站上的行为、用户在该网站上的点击和鼠标行为的实时反馈等等。

云提供商不像您那样了解您的业务。他们不知道您必须满足哪些性能和正常运行时间SLA。他们没有意识到您的消费者推荐引擎由与您的ML应用程序不同的团队拥有。

4.谁拥有数据成本ROI?

在过去的几十年中,技术已经变得如此关键,以至于业务部门已经避开IT部门直接部署云服务,这得益于云的低启动成本。然而,以快速行动的名义,业务团队牺牲了围绕效率和控制成本的最佳实践。随着他们的云和数据量的增长,这对他们造成了伤害。

为了应对这样的情况,企业已开始任用FinOps专家或创建集中管理的数据运营团队。理论上,DataOps团队非常关心控制数据成本。对于在职称中有数据两个字的任何人——数据工程师、数据管家、数据架构师,甚至是首席数据官——保持数据管道没有错误和瓶颈是重中之重。

最小化成本并不是他们所接受的培训或擅长的事情。由于技术预算通常仍由业务部门自己拥有,他们也不拥有数据项目的ROI。控制成本不是他们的KPI,实现应用才是。如果一个工程团队坚持要建立一个全新的数据管道,而不是重复使用一个现有的95%相同的管道,那么数据工程师有什么理由拒绝呢?

控制云数据成本的五项措施

总体而言,云,尤其是最新一代的低运维云原生应用程序,提供了一种更高性能的方式来从您的数据中生成有价值的洞察,同时最大限度地减少管理数据的成本和工作量。

但云经济学就是这样。如果没有工具来帮助您,op-ex将永远是动态且难以捉摸的。云提供商永远不会被激励提供这些工具或帮助您控制成本。

那么公司可以采取哪些步骤来开始提高其数据运营和管道的ROI呢?

(1)为您的数据工程师提供多维数据可观察性平台,使他们能够精细地了解云数据成本。让您的数据团队继续快速行动,同时保持在设定的预算范围内。

(2)将成本优化作为数据工程考核中的重要指标。成本优化必须从设计阶段就开始。在工程阶段之后,它不能被动地完成。

(3)通过使用数据可观察性平台节省调查支出异常的时间。这可以提供自动化的根本原因分析,以查明潜在的成本驱动因素,例如服务类型、特定仓库计算成本等。

(4)通过电子邮件、Slack和其他渠道的自动警报,让DataOps随时了解意外的成本发生的事件。

(5)让数据团队与业务、FinOps、IT等领域的合作伙伴安排定期财务审查。就有关云数据合同、预算和预测的所有事项进行充分沟通。

HongKe具有真正的多维数据可观察性平台,通过统一控制台提供对所有数据管道和工作负载的最深入和最广泛的可见性。您将能够获得有关您的基础架构和数据处理作业和成本的高级视图,您可以深入了解这些视图。

借助这种可见性,数据工程师可以微调当前的数据工作负载,以优化性能、成本和功能。

HongKe多维数据可观察性平台为当今最流行的云数据平台带来深度FinOps功能,包括Snowflake、Databricks和AWS EMR。这些将包括:

  • 能够在粒度级别了解数据云成本
  • 检测并提供成本高峰的根本原因分析
  • 成本规避(例如主动检测未使用的数据存储库)
  • 资源利用和大小调整(例如过度配置的数据仓库)
  • 对昂贵的数据操作的可见性,例如长时间运行查询的详细指标
  • 按用户或角色的计费功能
  • 使用当前消耗的数据和未来的合同金额进行预测估计

发表评论