You are currently viewing 人工智能初创公司文远知行使用Weka最大限度提高了其GPU利用率并降低其管理成本

人工智能初创公司文远知行使用Weka最大限度提高了其GPU利用率并降低其管理成本

导语:本文主要介绍WekaFS如何通过为GPU提供高I/O带宽,最大化文远知行的GPU投资效益。

文远知行简介

文远知行成立于2017年,总部位于广州,在全球多个城市设立分部,是全球领先的L4级自动驾驶科技公司,已经在全球23个城市开展自动驾驶研发、测试及运营,其自动驾驶技术和商业化进程在全球居于领先地位。

挑战:在管理成本的同时最大化对GPU的投资收益

文远知行是一家多方面发展的人工智能初创公司,致力于L4级自动驾驶汽车,支持自动驾驶汽车进行出租车服务,这就需要支持从边缘到核心再到云的完整IT基础设施。2021年2月,文远知行正式获得《网络预约出租汽车经营许可证》,具备开展网约车业务的资质,成为中国第一家拥有该资质的自动驾驶企业。又在2021年4月获得美国加利福尼亚州机动车管理局(DMV)颁发的全无人测试牌照,可在加州圣何塞市开放道路上进行无人驾驶测试,车辆无需配备安全员,成为全球首家同时拥有中美两地无人驾驶测试许可的初创公司。

该公司需要处理PB级别的数据,每天从超过200万公里的行驶距离中收集大型视频和图像文件。在安庆的自动驾驶数据标签中心,文远知行每天生产数百万个高质量的标签数据。数据在核心上进行注释,由基于云的集群上的AI模型进行训练,然后反馈给内部部署的AI引擎。

文远知行团队面临的挑战是,通过整个AI管道,使用混合大小的文件管理数百TB的数据,并在具有成本效益的情况下保持其GPU的充分利用。该团队需要一个这样的存储解决方案:

  • 最大限度地利用GPU资源
  • 提供一个混合实施模型,以减少数据中心的占地面积
  • 处理具有大量元数据的混合工作负载
  • 通过与商用服务器的硬件无关的兼容性提供灵活性
  • 为容量规划和未来性能提供最佳经济价值
  • 提供卓越的技术支持以补充产品的优势
  • 使存储成为终端用户的工具

解决方案:在商用服务器和AWS上混合实施Weka软件

最大化利用GPU投资是文远知行工程团队的主要决策驱动因素。对利用开源解决方案和HDFS提供数据的各种场景进行的广泛成本分析证明,替代方法并不具有成本效益。最终,文远知行选择了使用WekaFS的混合实现。

WekaFS具有两层架构,将商用服务器和公有云作为一个单一的混合存储解决方案来呈现。在本地,文远知行使用AMAX的基于英特尔x86的商用服务器和NVIDIA® Mellanox以太网交换机,在Weka上管理着数百TB的NVMe闪存。文远知行也是第一个使用Weka为其在AWS中国的GPU资源提供高带宽I/O的客户。文远知行团队赞扬了与Weka技术支持团队的合作,这使得公有云的实施实现了无缝连接。

Weka实现了团队的愿望,即拥有一个完全与硬件无关、对终端用户透明的实用的存储模式。有了Weka,企业中的任何人都可以映射驱动器,文远知行数据的消费者可以在一个可预测的时间框架内访问它,而底层的数据管理、移动和同步对终端用户是透明的。文远知行决定实施一个商业产品—Weka,而不是选择开放的源代码,这是文远知行的一个商业决定。该公司希望其工程师专注于创新产品的开发,以增加收入,而不是存储管理。

Weka向GPU提供了高I/O带宽

除了向需要大量数据的GPU提供高带宽I/O以使其充分利用之外,WekaFS非常适合数据密集型应用程序,无论是托管在本地还是在公共云中。它是一个POSIX文件系统,可随着GPU服务器群的增长而线性扩展性能,因此文远知行不会因未来的扩展而牺牲性能。由于文远知行在GPU服务器上以融合模式运行 WekaFS,从所有本地连接的NVMe驱动器创建单个命名空间,因此他们不必为本地集群投资昂贵的硬件。WekaFS是一个完全并行的分布式文件系统,它采用全新设计构建以利用高性能NVMe闪存。数据和元数据都分布在整个存储基础架构中,以确保对NVMe驱动器的大规模并行访问。

Weka创新网络(WIN)提供了解决大型问题的解决方案

文远知行是第一个在AWS中国上使用Weka的客户,并且能够通过混合实施显著减少其数据中心的占用空间。AWS中国是WIN Innovation合作伙伴,Weka 是AWS高级技术合作伙伴。WekaFS许可证通过总部位于加利福尼亚州坎贝尔的WIN Leader合作伙伴Dasher Technologies获得。

收益和投资回报率

文远知行通过选择WekaFS来实现投资回报和关键业务效益:

  • 加速产品的开发:文远知行通过使用成熟的Weka产品和出色的售后技术团队,加快了产品开发。
  • 最大限度地利用了GPU资源 :文远知行评估了几种选择,确定Weka是最好的存储解决方案,可以最大限度地利用其GPU,消除等待数据的闲置时间。
  • 硬件无关的软件:Weka与任何基于英特尔x86的服务器兼容,可以使用商用服务器。
  • 成本效率:Weka的混合实施模式减少了数据中心的占地面积,最大限度地提高了对GPU资源的投资利用率。
  • 稳定的技术支持:Weka的技术支持减少了存储管理的负担,并释放了工程资源,使其专注于创新和产品开发。
  • 存储作为一种实用工具:文远知行的数据可以在可预测的时间内提供给组织中的任何人,无论他们身在何处。

10% 的空闲时间 = 1 台额外的服务器 + 1 名数据科学家的成本

启用GPU的计算集群的闲置成本

这篇文章有一个评论

发表回复