- US - English
- China - 简体中文
- India - English
- Japan - 日本語
- Malaysia - English
- Singapore - English
- Taiwan, China - 繁體中文
“把你们这里所有的培根和鸡蛋都端上来。"
等一下……,我说的不是‘给我多来点培根和鸡蛋。’ 我是说,把你们这里‘所有的’培根和鸡蛋都端上来。”
- Ron Swanson
把上面对白中的‘培根和鸡蛋’换成大容量 NVMe™ SSD,有助于我们更好地了解数据中心存储市场的现状。AI 包揽了所有已出厂的大容量 NVMe™ SSD,而且未来的使用量只会越来越大。
在本博客中,我将讨论近期 AI 大量使用高速存储设备的三大原因。
- AI 加速器正在加速增长。
- 行业采用生成式 AI:不再有冷数据。
- 通过存储软件创新优化 TCO。
AI 工作负载不需要高速存储,以前的 HDD 平台依然运行良好。
没错,很多 AI 工作负载被设计为一次性读取大块数据(主要是顺序读取),此类用例确实适合使用 HDD 存储。但这些用例仅代表使用 Gen3 和 Gen4 AI 加速器时的情况。随着 NVIDIA H100 等 Gen5 AI 加速器的广泛部署,以及 B100 和更新版本 AI 加速器投入使用,HBM 带宽的增长速度已经远远超过数据中心系统架构的升级步伐。
在上图中,我比较了各种 AI 计算单位的带宽,包括:1 个加速器的 HBM 带宽;1 个 DPC 上的 1 个 CPU 在支持 8 通道时的 DRAM 带宽;4 块 NVMe SSD 的带宽;以及 24 块 EAMR HDD 在峰值传输速率下的带宽。我之所以选择 24 块 HDD,是因为通常需要将 HDD 的数量设为 NVMe SSD 的 6 倍,才能满足同样的带宽要求。我还选择了峰值传输速率来模拟 HDD 运行良好的情况。请注意,y 轴的刻度按照 2 的指数递增。
AI 加速器的计算能力正在迅速提升,主要得益于 HBM 技术的进步。这一趋势并没有放缓的迹象,随着代数提高,HBM 带宽与 DRAM 和 NVMe SSD 带宽之间的差距进一步拉大。
随着带宽的加速提升,长期以来基于 HDD 的 AI 工作负载将会转向大容量 NVMe 存储设备,如美光 6500 ION。随着 H100 级别 GPU 的上市并部署到更多企业环境中,许多客户都开始用 SSD 取代 HDD。
AI 加速器能力的提升正在推动企业采用常见存储设备,新兴的 AI 工作负载更青睐高速存储设备。
行业采用生成式 AI:不再有冷数据
LLM 等生成式 AI 模型的早期创建和训练工作由少数企业在大量 AI 系统集群上完成。随着企业内部 AI 推理和微调需求的增长,大多数公司已经在内部采用了 AI 系统。
引入经过训练的模型(如聊天机器人),然后在公司的专有数据上对该模型进行微调,正在成为各公司常见的 AI 使用方式。例如,美光在内部使用各种以聊天机器人为中心的工具,并使用代码生成工具在自有数据上进行训练。这些训练数据可能是企业的敏感数据,必须在企业内部进行微调并保存在内部基础设施中。
这些训练数据很有可能存储在哪里? 一般而言,这些数据来自多家供应商的各类 HDD 存储设备。过去,常见的数据流方向是从热层 (SSD) 到暖层(带 SSD 缓存的 HDD),再到冷层(慢速 HDD,有时会关闭),最终到达存档层(磁带)。随着 AI 模型的发展,新模型需要在专有数据上反复训练,这意味着数据不适合存储在冷层及以下层,因为较慢的数据提取速度将会影响模型微调的过程。更多的数据将存储在冷层之上,从而将推动企业采用速度更快的大容量存储系统。
通过存储软件创新优化 TCO
为了让生成式 AI 用例顺利运行,必须有效利用 AI 系统的资源。大型语言模型 (LLM) 通常规模很大,需要占用大量 HBM 和 DRAM。在很多情况下,为 LLM 投入更多集群 AI 资源,以尽快完成训练,是优先选择。对于 AI 微调或大规模推理等情况,通过延长任务完成时间,从而用更少的硬件资源解决更大的问题集,将有助于降低 TCO。
为支持这种优化方案,业界正在开发创新的 AI 存储软件堆栈,包括有效利用高速 NVMe SSD 来扩展 HBM 或 DRAM,以及优化数据传输路径。以下是我们测试过的一些用例:
- 大型加速器内存:仍在研究中的项目,通过更换 NVMe 驱动程序,让 AI 加速器能直接访问 NVMe SSD。目前用于 GNN 工作负载,可充分发挥高端 NVMe SSD 在小块数据访问模式下的 I/O 性能。
- DeepSpeed ZeRO-Inference:一款能够将用于推理的 kv-cache 卸载到 NVMe SSD 的软件,可高效利用系统 GPU、内存和存储资源来运行大规模推理工作负载。
- NVIDIA GPUDirect Storage:该技术支持绕过 CPU 回弹缓冲区,建立从 GPU 到 NVMe SSD 存储的直接数据传输路径。这种方式可大幅提升存储设备在系统繁忙时的性能。
总结
AI 工作负载对存储设备的要求落后于 HBM 和内存的发展。过去 8 年中,每一代 AI 加速器的性能都比上一代提高了 5 倍或 5 倍以上。早期的 AI 工作负载受到计算资源和内存带宽的限制,但随着 GPU 的快速发展,大多数 AI 工作负载最终都需要某种形式的 SSD 存储。
随着生成式 AI 成为常见的企业工作负载,企业需要高效的 AI 微调和训练解决方案,此类需求正在推动存储软件的创新。高性能 NVMe SSD 可用作“慢速”内存,从而实现有效利用成本高昂且稀缺的 AI 系统资源。
美光正与行业合作伙伴密切合作,以了解 AI 工作负载的独特要求。我们期待美光的创新技术为整个 AI 系统架构、HBM、内存和数据中心存储带来新的可能性。