You are currently viewing 数据可观察性如何顺利迁移到Snowflake并优化您的云运营成本

数据可观察性如何顺利迁移到Snowflake并优化您的云运营成本

当前有很多企业仍在以老式方式运行关键任务分析:通过Hadoop集群和其他本地数据库和数据仓库。

随着Cloudera对Hortonworks数据平台(HDP)和Cloudera数据中心(CDH)的支持即将结束,许多Hadoop用户都在争先恐后地寻找一种方法来维护他们的基础架构,以避免仓促的、充满风险的迁移。

如何避免灾难性的、代价高昂的强制迁移?我们探讨了HongKe数据平台和我们的Hadoop专家如何提供一种更安全、更高效、更便宜的方式来在未来几年继续运行CDH、HDP或开源版本的Hadoop。

同时,我们的技术团队也在持续支持,为您的基础架构做好准备,以便最终迁移到您选择的现代云原生数据库。

在这篇博客中,我将分享HongKe如何帮助您轻松且经济高效地迁移到流行的云数据仓库Snowflake的所有方法。我还将详细介绍我们的数据可观察性平台的所有功能,使您能够在基于Snowflake的分析堆栈投入运行后优化其成本性能。

规划和执行六步迁移

对于成功的云数据迁移,将这个庞大的项目分成几个阶段是关键所在。在我们看来,从Hadoop数据湖或其他本地基础设施迁移到Snowflake的六阶段流程是理想的,这包括:

  • 概念验证
  • 准备工作
  • 数据迁移
  • 消耗
  • 监控
  • 优化

1‍.概念验证

在概念验证阶段,HongKe Data Observability Cloud(我们的计算性能监控模块HongKe Pulse的一部分)为Snowflake最佳实践提供建议,并告诉您遵循它们的情况。

实施PoC后,HongKe还提供仪表板和hero reports,通过展示其有效性帮助您支持Snowflake。

其中包括成本智能仪表板,可帮助您做出明智的项目预算/合同决策并避免TMGT(Too-Much-of-a-Good-Thing)效应:失去控制的运营成本,这是切换到云平台的常见结果。

我将在此博客中详细讨论HongKe如何帮助您优化成本性能。

2.数据准备

对于任何成熟的数据基础架构,存储在过于昂贵的“热”存储中的暗数据池和未充分利用的数据往往比比皆是。对于用作公司所有数据的存储库的Hadoop数据湖来说尤其如此。

HongKe提供您在Hadoop或其他数据技术内所有数据资产的清单,以及有关它们的使用方式、数据质量和其他配置文件的信息。这有助于企业决定在迁移过程中整合、保留哪些数据并确定其优先级。您还可以获得现有Hadoop数据工作负载的性能基准,以便在将它们迁移到Snowflake时设定预期,或衡量改进。

HongKe还帮助企业以最佳方式配置其Snowflake帐户以提高效率和安全性。如果需要,我们还为希望微调其数据集群、微分区等方式的企业提供更深入的信息。

3.数据迁移

随着数据被摄取到Snowflake中,HongKe提供对Snowpipe和COPY命令性能的深入、实时的洞察。

更重要的是,HongKe通过比较源数据集和目标数据集,可以轻松检查从Hadoop和Snowflake迁移的数据的完整性。作为此数据协调的一部分,HongKe还帮助工程师对未按预期运行的迁移工作负载执行根本原因分析(RCA)。

客户案例:亚洲移动运营商Robi Axiata如何在采用数据可观察性平台后将其6 PB数据仓库问题的根本原因分析从3-6周缩短到一分钟。

例如,一个常见的问题是Snowflake的首选数据结构——它自动将大表划分为微分区。虽然微分区有助于Snowflake加快查询速度,但它与Hadoop和HDFS使用的数据结构有很大不同。

Snowflake还有特有的其他问题,例如区分大小写的SQL,也会在迁移过程中对您的数据架构和沿袭造成严重破坏。HongKe,尤其是HongKe Torch,可以通过比Looker等其他数据质量工具在更多维度上更深入地验证数据来发现迁移过程中大大小小的问题。这有助于建立更大的信任,即错误不会潜入您的数据,错误会在您的视野中完全暴露。

4.数据消耗

移动数据并检查质量后,HongKe将帮助您重建数据基础架构的其余部分。它会扫描您的新Snowflake帐户以自动发现和分析您的数据资产、它们的结构、它们的内容以及它们之间的相互关系(即依赖关系和数据沿袭)。不再需要手动创建数据目录。

我们还帮助您重建连接存储库、应用程序和ML框架的数据管道,或围绕转换该数据的管道。

5.数据监控

创建Snowflake基础架构后,HongKe会帮助对其进行监控,以便在数据开始流经您的数据管道时保持无错误出现。HongKe的多维功能允许您以多种不同方式测试和衡量您的数据质量,包括准确性、完整性、一致性、有效性、唯一性和及时性,以及模式和/或模型漂移。

我们持续的数据可观察性可确保您获得有关Snowflake中数据状态的最新信息。HongKe不会用虚假警报轰炸您,而是使用数据工程师手动设置或通过机器学习分析训练的阈值,仅在异常和事件变得严重时智能通知。

6.优化

除了提供可见性和运营效率外,HongKe还为Snowflake提供强大的成本优化工具,以帮助您实施数据价值工程计划。除了收集有关使用、性能和成本的大量数据外,HongKe还提供了一种探索成本、检测峰值并发现其根本原因、预测云服务商合同成本以及推荐降低成本的方法。

这使公司可以轻松准确地调整资源规模以匹配工作负载和SLA要求并节省资金,立即将您的团队转变为云数据FinOps专家。HongKe突出显示异常工作负载并提供统计数据以帮助您优化性能和成本。

这篇文章有 4 个评论

  1. gate.io

    I may need your help. I tried many ways but couldn’t solve it, but after reading your article, I think you have a way to help me. I’m looking forward for your reply. Thanks.

  2. gateio

    I may need your help. I tried many ways but couldn’t solve it, but after reading your article, I think you have a way to help me. I’m looking forward for your reply. Thanks.

发表回复