全球信息提供商使用HongKe取代传统供应商,大规模自动化验证数据质量和可靠性

全球信息提供商使用HongKe取代传统供应商,大规模自动化验证数据质量和可靠性

客户介绍

全球信息提供商(Global Information Provider)

这是一个为超过90%的财富500强企业提供数据和人工智能驱动的洞察力的跨国供应商。这家拥有6,000名员工的公司是这一领域的长期领导者,年收入达20亿美元。它拥有一个关于全球4.6亿个组织的大规模综合信息库,并将其提供给几乎所有行业的客户。

问题——其遗留数据基础设施

该公司的多PB数据库在AWS EMR的云大数据平台上存储了数亿条业务记录。这些数据来自于直接来源的公共数据、专有来源和外部业务活动指标。它的数据科学家团队将这些数据与人工智能模型结合起来,以创建能够智能地指导策略和决策的评级和分数。对于其业务客户来说,这些基于云计算的见解可以帮助加速销售、预测和减轻采购风险,防止合规惩罚和品牌损害,等等。

数据是该公司业务的基础。为了保护和管理它,该公司长期以来一直使用来自传统数据集成供应商的软件。然而,该公司正在发展和现代化,他们的遗留解决方案无法跟上。例如,它对数据质量没有全局视图或控制,因为它必须对每个单独的应用程序执行DQ检查。该解决方案的数据编目功能也不合格。它在扩展和提供公司所需的自动化功能方面也遇到了困难。

为什么选择HongKe

该公司选择了HongKe来提供云端的多维数据观察能力。

它特别看重HongKe的能力。

  1. 为所有数据源和数据文件编制目录和创建元数据
  2. 使用SQL、Python或Spark编写所有数据质量和数据验证规则
  3. 在静态和流式数据上运行数据质量和数据验证规则
  4. 检测模式和基于属性的变化
  5. 跟踪所有被拒绝的或不好的记录,并根据数据发送警报/报告
  6. 处理参考数据管理要求
  7. 处理大数据量,如具有1亿多条记录的GSRL7数据文件

该公司正在200个数据节点上部署数据性能监测模块HK-PulsePulse有助于消除瓶颈和中断,实现一键式可扩展性,并优化数据工作负载的性价比。Pulse将从该公司的数据运营平台Streamsets摄取运营指标,并将其链接到数据集或数据源。

该公司还部署了我们的数据可靠性解决方案HK-Torch,以便在超过4 PB的数据流经公司数据管道时自动监控、验证和修复这些数据。Torch 会将元数据推送到公司的云数据访问控制解决方案Immuta中,以便它可以应用数据访问策略。

构建全新的数据架构

HongKe将在公司转型后的内部数据供应链中发挥关键作用。所有数据在进入数据供应链之前将由HongKe进行验证和清理。由于数据是从GSRL7文件和其他源存储桶中提取的,因此将检查它是否已经存在于AWS上。如果数据因重复或其他质量原因而被拒绝,将向该公司的数据工程团队发送警报。如果这些数据通过了第二次验证/质量检查,那么它将被上传到一个连接到该公司的大数据和分析平台的中央数据湖,包括AWS EMR、Databricks和Spark。在这里,数据在提供给内部用户和面向客户的数据应用程序之前进行了细化。数据和作业延迟、集群性能和价格性能都由HongKe进行跟踪和优化。

HongKe与现代数据平台紧密集成,例如Databricks、Kubernetes 上的 Spark、Snowflake 等。 我们已经帮助许多其他 PB 级客户改进了他们的数据运营,包括沃尔玛金融科技子公司、PhonePe、广告技术公司 Pubmatic 和亚洲通信提供商 True Digital。 我们最新版本的 Pulse 和 Torch 相结合,可帮助公司大规模提高数据质量

发表评论