关于GPU用于AI的5大误解

Post author:虹科云科技
Post published:2022年8月29日
Post category:WekaIO
Post comments:0评论

从将人工智能从小众、手工项目带入具体、成功的部署，到改变企业运作方式，GPU一直发挥着至关重要的作用。

GPU加速的工作负载无处不在—在数据中心、在边缘和在云端。由数千个处理器核心同时运行的GPU使得企业人工智能成为现实。然而，尽管GPU对人工智能和数据科学具有变革性，但人类的天性是简化并假设它们是我们使人工智能项目成功所需的全部，而且没有任何警告。他的盲目信仰导致了一些出人意料的问题，推迟了数据科学项目的推出，甚至更糟，导致它们失败。以下是你在构建AI项目时需要避免的关于Al的GPU的5个误解。

1.我的GPU给了最快的结果

GPU支持大规模并行，每个核心都专注于高效计算，从而大幅降低基础设施成本，并为端到端数据科学工作流提供卓越的性能。12个当前的NMDIA GPU可以提供2000个现代GPU的深度学习性能。在同一台服务器上增加8个GPU可以提供多达55,000个额外的核心。虽然 GPU可以加速你的计算过程，但研究表明，它们有一半的时间在等待数据，这意味着你最终要等待结果。它们提供的计算能力的增长需要更强大的网络和存储。多达70%的时代发生在GPU之前。在我们的数据管道的不同阶段，在系统之间复制数据花费了大量的时间——NAS用于持久存储，本地文件系统或并行文件系统用于快速存储，对象存储用于归档数据。这使得让你的GPU在更低的epoch时间和更快的时间内充分利用变得具有挑战性。

WEKA的人工智能数据平台解决了当今企业技术计算工作负载和其他高性能应用程序所带来的存储挑战，这些应用程序运行在本地、云端或平台之间。零拷贝架构在相同的存储后端运行整个管道，并消除了副本的成本和延迟。

通过WEKA，您可以加速GPU支持的数据管道的每个步骤――从数据摄取、清理到建模、训练验证和推断，以加速业务结果。

2.吞吐量为王

虽然很容易将吞吐量视为优化GPU使用所需的指标，但吞吐量并不能准确反映AI工作负载的全部性质。要优化你的数据管道，你需要担心的不仅仅是向
GPU输入大量的数据——IOPs和元数据也很重要。

数据管道的每一步通常都有一个完全不同的数据概要。当您对整个管道中的数据有不同的IO需求时，这可能会导致针对一种数据类型或吞吐量性能概要进行调优的传统存储出现问题，从而产生存储竖井和管理问题。根据工作负载的不同，您需要提供吞吐量之外的IOPS、延迟和或元数据操作的性能配置文件。有些步骤需要低延迟和随机小lO。另一些则需要大量的流吞吐量。由于流程中的子步骤，其他人需要同时混合使用这两者。在大多数环境中，多个管道将同时运行，但运行的阶段不同，从而增加了同时处理不同IO配置文件的需求。

WEKA提供了一个数据平台，可以轻松处理并发的高带宽和高IOP条件。WEKA提供了跨所有维度的性能，因此您可以将许多存储平台合并为一个存储平台，从而消除平台之间复制数据的浪费周期。每个阶段在 WEKA上的运行速度也比任何其他平台都要快。WEKA通过所有可用协议向相同的数据集公开每个应用程序，并最终消除了许多用于调优的“怪才”，从而实现了简化的高性能存储体验。

3.GPU支持的AI工作负载总是难以处理小文件

许多AI深度学习工作负载都涉及大量的小文件。从数以百万计的小图像到用于分析的物联网设备日志，等等。一旦进入数据管道，ETL类型的工作将数据归一化，然后使用随机梯度下降训练模型。这就带来了大量的元数据和随机读取问题，在AI深度学习管道的第一部分中，这些问题由许多小的IO请求主导。很多存储平台都无法处理。

然而，WEKA的体系结构对此提供了一个解决方案。通过在NVMe 设备的本机边界对齐所有数据请求，WEKA不仅能够熟练地处理小IO，而且还可以通过聚合所有小IO来提供大带宽。在此基础上，WEKA自动在WEKA 集群中扩展虚拟元数据服务器，以确保随着集群的扩展，您可以处理越来越多的元数据操作。结果很明显:一个客户进行深度学习的平均IOPs为4.2M，每秒250GB，其中大部分数据都是10kb 的文件。

4.存储？GPU都是关于计算能力的

人工智能工作负载对性能、可用性和灵活性的要求，越来越多的传统存储平台无法很好地满足这些要求。为AI工作负载选择的存储将对满足业务需求的能力产生重大影响。成功的Al项目往往在计算和存储需求方面都增长非常快，这种增长对存储选择的影响需要仔细考虑。产品的选择。然而，大多数AI基础设施的重点和支出是在GPU和网络上―—这可能会消耗项目预算的90%。这就把剩下的很小的时间和花费留给了存储来启动系统。

AI存储的大规模性能与可用性、灵活性和易用性等“传统”需求同等重要。通常只有在安装之后，组织才会意识到它们的存储空间严重不足，无法保存不断增长的训练数据集，并被困在一个用处远不如以前的环境中。

WEKA数据平台提供了从TB到几十EB的线性扩展，并重新定义了云时代的可伸缩性。统一的命名空间规模允许客户在每个维度上进行扩展，而不会随着AI工作量的增长而影响性能。通过智能分级自动扩展文件和对象，并扩展NVMe 层以提高性能，扩展对象层以增加容量。

5.GPU最快的存储是本地存储

随着Al数据集的持续增长，加载数据所花费的时间开始影响工作负载性能。以前，让GPU接收数据的最佳方法是从本地NVMe存储中获取数据。这避免了从存储阵列和通过网络传输数据所造成的瓶颈和延迟。运行在它们上面的网络和协议栈增加了开销，并不能使数据传输符合当今现代系统的性能要求。但是GPU已经发展得如此之快，以至于服务器主机无法提供足够快的数据。由于IO速度太慢，GPU越来越吃不消。

对于最快的推理和最高的映像基准测试，WEKA可以提供比本地存储更快的IO。本地存储受到本地服务器资源的限制。例如，可用来服务IO的PCIE通道和队列的数量。WEKA将多个服务器的资源聚合到任何GPU上。通过支持对所有服务器负载平衡请求的智能并行访问，可以避免任何可能减慢访问速度的临时IO阻寨。新的并行数据平面和控制平面协议避免了传统网络数据访问的问题，以确保WEKA数据平台是向GPU提供数据的最快方式。