You are currently viewing 为什么企业需要大规模提高数据质量和数据可观察性

为什么企业需要大规模提高数据质量和数据可观察性

研究人员Anitesh Barua、Deepa Mani和Rajiv Mukherjee调查了10个行业的150多家财富1000强公司,以了解数据质量的改进如何给业务带来有利的影响。他们发现,如果公司能够将其数据的质量和可用性提高10%,就可以将股本回报率(ROE)提高16%,这相当于财富1000强公司平均每年增加20多亿美元的收入。

但是,随着企业继续收集比以往任何时候都多的数据,它们如何大规模的提高数据质量呢?

企业的数据团队不能仅依靠人工干预来大规模提高数据质量。他们需要一个具有高级人工智能(AI)/机器学习(ML)功能的数据可观察性解决方案来自动检测数据和模式漂移、异常以及沿袭。

数据可观察性提供了数据如何在整个数据生命周期中转换的完全可追溯性

在数据生命周期中使用不同的数据技术和解决方案会导致数据碎片化。不完整的数据视图使数据团队无法了解数据是如何被转化的,从而导致数据管道的断裂和意外的数据中断,这反过来又要求数据团队手动调试这些问题。

数据可观察性可以提供完整的数据可追溯性,对整个数据管道有一个统一的视图。这可以帮助数据团队预测、防止和解决意外的数据停机或碎片化数据可能产生的完整性问题。

虽然具体细节可能因行业而异,但所有企业数据团队都需要在整个数据生命周期中与多种数据类型、数据源和数据技术打交道。例如,医疗保健企业可能需要通过电话或其网站直接收集客户详细信息,以执行某些管理任务,如注册。同时,对于计费,他们可能还需要与外部软件、数据库和第三方支付机构协作。他们可能还需要利用社交媒体、语音以及视频客户的反馈来衡量其医疗保健业务的运营质量。

因此,企业数据团队需要从广泛的来源中摄取不同的数据类型,如他们的网站、第三方数据、外部数据库、外部软件和社交媒体平台等。他们需要清理和转换不同数据格式的大量结构化和非结构化数据集。另外,他们还需要从看似不相关的大型数据集中提炼出可操作的分析和有用的结论。因此,企业数据团队可以轻松地使用多种不同的技术,从摄取到转换,再到分析和使用。

Uncommon Capital的普通合伙人Jamie Quint在接受Sylvain Giuliani采访时解释了他的数据和分析栈。他的数据生命周期从使用Fivetran和Segment将数据输入仓库开始。然后他用Snowflake和dbt对数据进行转换,接着用Amplitude和Mode对数据进行分析。他通过使用Census将数据输出到其他平台来完成数据生命周期。

使用不同的数据技术可以帮助数据团队应对数据量的不断增长、增长速度的加快以及种类的不断增多。但使用这些技术的代价是数据支离破碎、不可靠和不完整。

这正是像HongKe Torch这样的多维数据可观察性解决方案可以提供帮助的地方。它在整个数据生命周期中提供跨不同技术的整个数据管道的单一统一视图。它可以帮助数据团队自动监控数据并跟踪沿袭,即使在数据通过多种不同技术多次转换后,Torch也可以帮助数据团队确保数据的可靠性

HongKe Torch可以为您展示跨不同技术的整个数据管道的统一单窗视图。上图显示了处理每月客户流失数据的管道的每个步骤。

数据可观察性使用AI规则有效处理动态数据

HongKe Torch允许您定义和扩展内置AI规则,以检测模式和数据的漂移以及动态更改数据可能产生的其他数据质量问题。这有助于防止数据管道中断和不可靠的数据分析。数据团队还可以使用Torch自动将数据记录与其来源进行核对,并对大量未分类的数据进行分类。

动态变化的数据会产生不可预见的问题。数据源或目标的变化会导致模式漂移。而任何与数据相关的结构、语义或基础设施的意外变化都可能导致数据漂移。Torch可以检测导致这些问题的任何结构或内容更改。它还可以帮助您调和动态数据,以确保数据保真度。这可以帮助您避免数据管道的损坏和数据分析的错误。

Torch还可以自动对原始未分类数据进行分类、聚类并提供关联。这有助于数据团队理解大型数据集。同时也提供了一个每个数据记录与其他记录的关联环境。

数据可观察性可以自动识别异常以及根本原因

HongKe Torch的高级AI/ML功能可以根据CPU、内存、成本和计算资源的历史趋势自动识别异常。例如,如果每天平均预期成本与历史平均值或标准差相比存在显著差异,Torch将自动检测到这一情况并向您发送警报。

HongKe Torch可以自动检测到与历史中位数和标准差不同的突然向上或向下的峰值。上图显示了异常的成本增加。

Torch还可以通过比较应用程序日志、查询运行时间或队列利用率等统计数据,自动确定异常变化的根本原因。这有助于团队花更少的时间来筛选大型数据集以调试数据质量问题。

Torch可以基于历史比较、资源的使用以及生产环境的健康状况来关联事件。这可以帮助数据工程师比以往更快地确定生产环境中异常变化的根本原因。Torch有助于分析系统或表现的变化,以便数据团队能够确定问题的根本原因。它为数据团队提供了以下工具:

  • 以时间直方图的形式获取所有应用程序日志的概览,可按严重程度或服务进行搜索;
  • 识别缓慢的查询及其运行时间/配置参数;
  • 了解不同查询的队列利用率如何变化。

人工智能和机器学习可以帮助企业大规模提高数据质量

数据正在成为企业的命脉。在这种情况下,数据质量只会变得越来越重要。Gartner公司的副总裁分析师TedFriedman表示:“随着企业加快其数字化转型的努力,糟糕的数据质量是导致情报信任和商业价值危机的主要因素,对企业的效益产生了负面影响。”

如果企业想作出有效的基于数据驱动的决策,就必须提高数据质量。但随着数据团队收集的数据比以往任何时候都多,仅靠人工干预是不够的。他们还需要一个数据可观察性解决方案,如HongKe Torch,它具有高级AI和ML功能,可帮助企业大规模的提高数据质量。

发表回复