设计工具

美光全系列高速数据中心存储产品可满足 AI 需求

Ryan Meredith | 2024 年 6 月

“把你们这里所有的培根和鸡蛋都端上来。" 

等一下……,我说的不是‘给我多来点培根和鸡蛋。’ 我是说,把你们这里‘所有的’培根和鸡蛋都端上来。”

 - Ron Swanson

把上面对白中的‘培根和鸡蛋’换成大容量 NVMe™ SSD,有助于我们更好地了解数据中心存储市场的现状。AI 包揽了所有已出厂的大容量 NVMe™ SSD,而且未来的使用量只会越来越大。

在本博客中,我将讨论近期 AI 大量使用高速存储设备的三大原因。

  1. AI 加速器正在加速增长。
  2. 行业采用生成式 AI:不再有冷数据。
  3. 通过存储软件创新优化 TCO。

AI 工作负载不需要高速存储,以前的 HDD 平台依然运行良好。

没错,很多 AI 工作负载被设计为一次性读取大块数据(主要是顺序读取),此类用例确实适合使用 HDD 存储。但这些用例仅代表使用 Gen3 和 Gen4 AI 加速器时的情况。随着 NVIDIA H100 等 Gen5 AI 加速器的广泛部署,以及 B100 和更新版本 AI 加速器投入使用,HBM 带宽的增长速度已经远远超过数据中心系统架构的升级步伐。

在上图中,我比较了各种 AI 计算单位的带宽,包括:1 个加速器的 HBM 带宽;1 个 DPC 上的 1 个 CPU 在支持 8 通道时的 DRAM 带宽;4 块 NVMe SSD 的带宽;以及 24 块 EAMR HDD 在峰值传输速率下的带宽。我之所以选择 24 块 HDD,是因为通常需要将 HDD 的数量设为 NVMe SSD 的 6 倍,才能满足同样的带宽要求。我还选择了峰值传输速率来模拟 HDD 运行良好的情况。请注意,y 轴的刻度按照 2 的指数递增。

AI 加速器的计算能力正在迅速提升,主要得益于 HBM 技术的进步。这一趋势并没有放缓的迹象,随着代数提高,HBM 带宽与 DRAM 和 NVMe SSD 带宽之间的差距进一步拉大。

随着带宽的加速提升,长期以来基于 HDD 的 AI 工作负载将会转向大容量 NVMe 存储设备,如美光 6500 ION。随着 H100 级别 GPU 的上市并部署到更多企业环境中,许多客户都开始用 SSD 取代 HDD。

AI 加速器能力的提升正在推动企业采用常见存储设备,新兴的 AI 工作负载更青睐高速存储设备。

行业采用生成式 AI:不再有冷数据 

LLM 等生成式 AI 模型的早期创建和训练工作由少数企业在大量 AI 系统集群上完成。随着企业内部 AI 推理和微调需求的增长,大多数公司已经在内部采用了 AI 系统。

引入经过训练的模型(如聊天机器人),然后在公司的专有数据上对该模型进行微调,正在成为各公司常见的 AI 使用方式。例如,美光在内部使用各种以聊天机器人为中心的工具,并使用代码生成工具在自有数据上进行训练。这些训练数据可能是企业的敏感数据,必须在企业内部进行微调并保存在内部基础设施中。

这些训练数据很有可能存储在哪里? 一般而言,这些数据来自多家供应商的各类 HDD 存储设备。过去,常见的数据流方向是从热层 (SSD) 到暖层(带 SSD 缓存的 HDD),再到冷层(慢速 HDD,有时会关闭),最终到达存档层(磁带)。随着 AI 模型的发展,新模型需要在专有数据上反复训练,这意味着数据不适合存储在冷层及以下层,因为较慢的数据提取速度将会影响模型微调的过程。更多的数据将存储在冷层之上,从而将推动企业采用速度更快的大容量存储系统。

通过存储软件创新优化 TCO 

为了让生成式 AI 用例顺利运行,必须有效利用 AI 系统的资源。大型语言模型 (LLM) 通常规模很大,需要占用大量 HBM 和 DRAM。在很多情况下,为 LLM 投入更多集群 AI 资源,以尽快完成训练,是优先选择。对于 AI 微调或大规模推理等情况,通过延长任务完成时间,从而用更少的硬件资源解决更大的问题集,将有助于降低 TCO。

为支持这种优化方案,业界正在开发创新的 AI 存储软件堆栈,包括有效利用高速 NVMe SSD 来扩展 HBM 或 DRAM,以及优化数据传输路径。以下是我们测试过的一些用例:

总结 

AI 工作负载对存储设备的要求落后于 HBM 和内存的发展。过去 8 年中,每一代 AI 加速器的性能都比上一代提高了 5 倍或 5 倍以上。早期的 AI 工作负载受到计算资源和内存带宽的限制,但随着 GPU 的快速发展,大多数 AI 工作负载最终都需要某种形式的 SSD 存储。

随着生成式 AI 成为常见的企业工作负载,企业需要高效的 AI 微调和训练解决方案,此类需求正在推动存储软件的创新。高性能 NVMe SSD 可用作“慢速”内存,从而实现有效利用成本高昂且稀缺的 AI 系统资源。

美光正与行业合作伙伴密切合作,以了解 AI 工作负载的独特要求。我们期待美光的创新技术为整个 AI 系统架构、HBM、内存和数据中心存储带来新的可能性。

美光存储解决方案架构总监

Ryan Meredith

Ryan Meredith 担任美光存储业务部门数据中心工作负载工程总监,负责测试新技术,助力美光在 AI 和 NVMe-oF/TCP 等领域,以及全闪存软件定义存储技术方面树立思想领袖地位并提升知名度。