设计工具
应用

AI 和机器学习需要高性能存储

美光科技 | 2019 年 2 月

多年来,人工智能和机器学习 (AI/ML) 一直是学术、地球科学和政府产业的支柱,如今,凭借对商业业务的切实推动,它们正迅速成为主流技术。了解 AI/ML 的运作方式以及这种新的计算模式面临着哪些挑战,将决定谁能够实现投资回报的最大化。在本篇博客及后续文章中,我想重点谈谈作为一家商业企业,您在开始进军 AI/ML 市场时需要克服哪些重大障碍,以及美光可以如何为您提供助力。

简单来说,AI/ML 的工作流主要包括四个环节(见图),分别是摄入、转换、训练和生产/执行。在本篇博客中,我将讨论部署基于 AI/ML 的解决方案的摄入和转换阶段。

AI/机器学习工作流;转换、训练、执行

在决定 AI 系统需要多长时间才能为您创造价值方面,数据的摄入和转换是最重要的环节之一。在许多 AI 解决方案中,这两个环节甚至可以代表整个 AI 执行过程的 80%,最近,它们更是成为了数据科学领域的关注重点。要更好地理解为什么会这样,我们必须先弄明白每个环节需要做些什么。

数据摄入和转换流程

摄入

所谓“摄入”,就是它字面上的意思。系统必须从各种来源收集数据(其中许多数据在格式上彼此不兼容),并以特定方式存储数据,供转换流程将数据转换为可用于训练系统的形式。训练流程就是使 AI 变得“聪明”并对现实世界有用的过程。AI 应用以及这些应用提供的回答依赖于海量的数据。存储解决方案的速度必须足够快,否则在数据变得可用之前,会耗费过多的时间来执行数据转换。在摄入流程中,相对于存储库的数据移动虽然是 100% 写入,但通常是“一次性写入”。所摄入数据的大小可能有所不同,且通常是非结构化对象或文件形式,如视频、图像、文档或对话文本等,并且往往位于不同的数据湖及其他数据源中。正是因为数据格式的这种差异,后续才需要执行数据转换。摄入流程主要依赖两个方面:高速(高宽带)网络连接,以及大容量、快速的数据存储库……我所说的大容量,是容量真的很大才可以!我们需要这样的大容量来收集数据,更重要的是,存储解决方案的速度必须要快。

转换

转换流程是 AI 解决方案中三个迭代流程的第一个,很可能也是对 AI 开发影响最大的一个。由于摄入的数据很可能大小和格式各异,因此将这些数据归一化为单一格式非常重要,只有这样,后续的训练流程才能轻松使用这些数据。在大多数 AI 解决方案中,转换流程输出的格式都是支持所选训练和生产引擎的格式。目前这通常是开源 (TensorFlow™) 或其他 AI 框架。

将数据转换为这种标准格式是一个迭代过程。整个过程主要分为三步:准备要转换的数据、将数据转换为目标格式(如 TensorFlow 数据格式),以及评估生成的格式化数据,以识别无法使用的记录。每组数据都需要重复这些步骤,直到所有数据都被正确写入所需的目标数据格式。

数据的转换速度取决于各计算节点所安装内存的数量和质量,以及存储解决方案的速度。与前面的摄入流程不同,该阶段的存储访问多种多样,需要同时对摄入的数据进行顺序访问和随机访问。这种读取写入比率视您使用的目标 AI 框架及其对训练数据标准格式的要求而变化。对于大多数转换流程,最坏的情况是 50% 的读取和 50% 的写入,但这在很大程度上取决于被转换的数据集。例如,在转换数据对象时,系统会读取每个对象,然后将它们以目标格式写入。如果您分析的是对话数据,并且只提取数据的文本部分而删掉所有元数据,则您的读取比例可能达到 80% 左右。

分析与结论

那么,为什么美光要讨论 AI 解决方案?

首先,美光是先进内存和存储产品的主要制造商和供应商,我们开发的 SSD 是当下为海量数据提供快速、响应式存储的标杆。美光提供各种非常适合 AI 应用的大容量、高性能 SSD,从用于企业读取密集型用例的高性价比 SSD 解决方案美光 5210 ION SSD(市场上率先采用四层单元的 SSD),到性能、容量均尤为出色且属于同类翘楚的商用 SSD 美光 9200 Eco SSD (11TB),应有尽有。这些 SSD 通常组合用于热分层存储和温分层存储。我们还提供存储级内存解决方案,这些解决方案具有额外的非易失性存储性能,比当下的 SSD 解决方案快 10 倍。

在用 Red Hat® Ceph(一款基于 Linux、用于大型数据湖/海洋的通用对象存储解决方案)进行测试时,我们得到了可扩展容量的解决方案(可扩展到 PB 级),这些解决方案在使用四个双路 2RU 存储节点时,能以 23 GB/s 的写入吞吐量提供尤为快速的 Ceph 性能1

与 HDD 不同,固态硬盘可支持大带宽。我们已经看到,在现有 Hadoop 集群中添加少量闪存即可将性能提升多达 36%。

其次,美光的先进 DRAM 提供高性能内存解决方案,让您可以扩展应用中的每个计算服务器,帮助提升数据转换流程中的整体系统性能。我们在针对边缘存储设备的低功耗、大容量内存上也取得了创新,使现场部署 AI/ML 成为可能。例如,美光最新的 GDDR 图形 DRAM 可将内存比特率加速到 16 GBps。

借助闪存和存储,您可以让更多数据更靠近处理引擎,以便更快地进行分析。GPU 是加快处理速度的关键,其可以并行处理数百万个操作(CPU 采用顺序处理方式)。通过结合使用这些美光产品,您可以获得广泛的高性能器件,为当下在商业解决方案中部署的先进 AI/ML 甚至深度学习解决方案加上至关重要的一笔。80% 的整体 AI 解决方案设计和部署流程均包括数据摄入和转换环节。解决方案能越快为 AI 引擎获得可用的训练数据集,就能越快部署这项新技术并从中受益,从而构建更智能的边缘功能。

1如 2018 年 11 月发布的美光 Red Hat Ceph 参考架构中所述。具体的体验可能会有所不同。