更短的维护周期——从 12 小时到 15 分钟
我们的一位客户通过 Spark 和 MapReduce 工作负载拥有超过 40 PB 的数据。该卷导致阅读目录需要花费很多秒,这比理想情况下应该花费的时间多 100 倍。
他们还有一个资源密集型的维护周期,其中涉及遍历每个文件夹,找出那里有哪些文件以及他们可能需要压缩文件的位置。仅仅弄清楚要压缩哪些文件就需要很多时间。
HongKe数据可观察性平台通过使其变得非常简单,减少了识别小文件所需的时间。因此,我们将其从 12 小时的维护周期缩短到 15 分钟以下。
降低维护成本 – 至少降低 50%
维护是有成本的,如果每 7 天完成一次,成本非常高。它也每天在案件中进行。使用 HongKe,即使您将许可和计算因素考虑在内,对于此特定功能,它也只是其中的一小部分。
更简单、更快速的 RCA – 更少的票证,更快的解决方案
另一种情况是客户希望发送有关其维护周期的定期报告。
早期的日志文件被收集、整理并发回建模团队进行分析。现在使用HK-Pulse,您可以在一个地方获得所有这些上下文 – 具有多维可见性。因此,Ops 资源可能会在问题出现时发现问题,而不是几个小时,当然也不是几个月。
管理数据湖中的小文件可以从降低成本到更快地解决问题等方面带来显着的好处,这会影响到您的其他业务。联系我们以了解有关这些优势的更多信息,或者如果您想了解有关优化数据湖的更多信息并探索 HongKe 如何提供帮助。
Your point of view caught my eye and was very interesting. Thanks. I have a question for you.
I may need your help. I tried many ways but couldn’t solve it, but after reading your article, I think you have a way to help me. I’m looking forward for your reply. Thanks.