AI 和机器学习需要高性能存储系列篇（一）

多年来，人工智能和机器学习 (AI/ML) 一直是学术、地球科学和政府产业的支柱，如今，凭借对商业业务的切实推动，它们正迅速成为主流技术。了解 AI/ML 的运作方式以及这种新的计算模式面临着哪些挑战，将决定谁能够实现投资回报的最大化。在本篇博客及后续文章中，我想重点谈谈作为一家商业企业，您在开始进军 AI/ML 市场时需要克服哪些重大障碍，以及美光可以如何为您提供助力。

简单来说，AI/ML 的工作流主要包括四个环节（见图），分别是摄入、转换、训练和生产/执行。在本篇博客中，我将讨论部署基于 AI/ML 的解决方案的摄入和转换阶段。

在决定 AI 系统需要多长时间才能为您创造价值方面，数据的摄入和转换是最重要的环节之一。在许多 AI 解决方案中，这两个环节甚至可以代表整个 AI 执行过程的 80%，最近，它们更是成为了数据科学领域的关注重点。要更好地理解为什么会这样，我们必须先弄明白每个环节需要做些什么。

摄入

所谓“摄入”，就是它字面上的意思。系统必须从各种来源收集数据（其中许多数据在格式上彼此不兼容），并以特定方式存储数据，供转换流程将数据转换为可用于训练系统的形式。训练流程就是使 AI 变得“聪明”并对现实世界有用的过程。AI 应用以及这些应用提供的回答依赖于海量的数据。存储解决方案的速度必须足够快，否则在数据变得可用之前，会耗费过多的时间来执行数据转换。在摄入流程中，相对于存储库的数据移动虽然是 100% 写入，但通常是“一次性写入”。所摄入数据的大小可能有所不同，且通常是非结构化对象或文件形式，如视频、图像、文档或对话文本等，并且往往位于不同的数据湖及其他数据源中。正是因为数据格式的这种差异，后续才需要执行数据转换。摄入流程主要依赖两个方面：高速（高宽带）网络连接，以及大容量、快速的数据存储库……我所说的大容量，是容量真的很大才可以！我们需要这样的大容量来收集数据，更重要的是，存储解决方案的速度必须要快。

转换

转换流程是 AI 解决方案中三个迭代流程的第一个，很可能也是对 AI 开发影响最大的一个。由于摄入的数据很可能大小和格式各异，因此将这些数据归一化为单一格式非常重要，只有这样，后续的训练流程才能轻松使用这些数据。在大多数 AI 解决方案中，转换流程输出的格式都是支持所选训练和生产引擎的格式。目前这通常是开源 (TensorFlow™) 或其他 AI 框架。

将数据转换为这种标准格式是一个迭代过程。整个过程主要分为三步：准备要转换的数据、将数据转换为目标格式（如 TensorFlow 数据格式），以及评估生成的格式化数据，以识别无法使用的记录。每组数据都需要重复这些步骤，直到所有数据都被正确写入所需的目标数据格式。

数据的转换速度取决于各计算节点所安装内存的数量和质量，以及存储解决方案的速度。与前面的摄入流程不同，该阶段的存储访问多种多样，需要同时对摄入的数据进行顺序访问和随机访问。这种读取写入比率视您使用的目标 AI 框架及其对训练数据标准格式的要求而变化。对于大多数转换流程，最坏的情况是 50% 的读取和 50% 的写入，但这在很大程度上取决于被转换的数据集。例如，在转换数据对象时，系统会读取每个对象，然后将它们以目标格式写入。如果您分析的是对话数据，并且只提取数据的文本部分而删掉所有元数据，则您的读取比例可能达到 80% 左右。

分析与结论

那么，为什么美光要讨论 AI 解决方案？

首先，美光是先进内存和存储产品的主要制造商和供应商，我们开发的 SSD 是当下为海量数据提供快速、响应式存储的标杆。美光提供各种非常适合 AI 应用的大容量、高性能 SSD，从用于企业读取密集型用例的高性价比 SSD 解决方案美光 5210 ION SSD（市场上率先采用四层单元的 SSD），到性能、容量均尤为出色且属于同类翘楚的商用 SSD 美光 9200 Eco SSD (11TB)，应有尽有。这些 SSD 通常组合用于热分层存储和温分层存储。我们还提供存储级内存解决方案，这些解决方案具有额外的非易失性存储性能，比当下的 SSD 解决方案快 10 倍。

在用 Red Hat® Ceph（一款基于 Linux、用于大型数据湖/海洋的通用对象存储解决方案）进行测试时，我们得到了可扩展容量的解决方案（可扩展到 PB 级），这些解决方案在使用四个双路 2RU 存储节点时，能以 23 GB/s 的写入吞吐量提供尤为快速的 Ceph 性能¹。

与 HDD 不同，固态硬盘可支持大带宽。我们已经看到，在现有 Hadoop 集群中添加少量闪存即可将性能提升多达 36%。

其次，美光的先进 DRAM 提供高性能内存解决方案，让您可以扩展应用中的每个计算服务器，帮助提升数据转换流程中的整体系统性能。我们在针对边缘存储设备的低功耗、大容量内存上也取得了创新，使现场部署 AI/ML 成为可能。例如，美光最新的 GDDR 图形 DRAM 可将内存比特率加速到 16 GBps。

借助闪存和存储，您可以让更多数据更靠近处理引擎，以便更快地进行分析。GPU 是加快处理速度的关键，其可以并行处理数百万个操作（CPU 采用顺序处理方式）。通过结合使用这些美光产品，您可以获得广泛的高性能器件，为当下在商业解决方案中部署的先进 AI/ML 甚至深度学习解决方案加上至关重要的一笔。80% 的整体 AI 解决方案设计和部署流程均包括数据摄入和转换环节。解决方案能越快为 AI 引擎获得可用的训练数据集，就能越快部署这项新技术并从中受益，从而构建更智能的边缘功能。

¹如 2018 年 11 月发布的美光 Red Hat Ceph 参考架构中所述。具体的体验可能会有所不同。

产品概览

搜索、筛选和下载美光数据表

市场与行业概览

AI 数据中心

合作伙伴概览

了解并加入美光的技术支持计划 (TEP)

销售和支持概览

联系美光销售支持团队

关于概览

投资者关系概览

访问美光“投资者关系”网站

最近搜索

AI 和机器学习需要高性能存储

摄入

转换

分析与结论