设计工具

无效的输入。不支持特殊字符。

SSD

推理 = IOPS:借助美光 9550 高性能 SSD 保持前沿地位

Ryan Meredith | 2025 年 6 月

推理将成为数据中心最常见的工作负载,这一点毋庸置疑。随着数据中心日益广泛采用 NVIDIA H100,以及非 NVL72 系统开始部署 NVIDIA DGX B200,计算能力正迎来爆炸式增长。

观察 PCIe® 各代产品带宽扩展与计算能力增长的情况可以发现:从 PCIe 3.0 到 6.0,带宽增长了 8 倍,而 GPU FLOPS 在同一时期增长了 37.5 倍。

我们还发现,过去四年间,训练集群的平均 FLOPS 增加了 905 倍,而训练数据集中的数据点数量在同一时期增加了 2,500 倍。

GPU 与 PCIe
图形用户

虽然推理一直是且将继续是计算密集型工作负载,但其对快速存储的依赖正在迅速显现。推理模型将推动大语言模型 (LLM) 的实用性、准确性和资源需求大幅提升。序列长度的增加促使 LLM 系统设计不断创新,将 KV 缓存存储到磁盘而非刷新后重新计算正在成为效率更高的做法。这将对企业用于推理的 GPU 本地系统提出更高的性能要求。

我们关注这一趋势已有一段时间,并因此研发出了美光 9550 这款性能出色的 SSD。其高 IOP 和卓越能效能够有效契合这些新兴工作负载的需求。

举例而言,我们使用微软的 DeepSpeed ZeRO-Inference 工具对美光 9550 与某前沿竞品进行了测试。结果显示,美光 9550 的读取速度快 15%,平均功耗低 27%,从而使 SSD 能耗低 37%、系统总能耗低 19%。

尽管写入操作只占推理工作负载的一小部分,但不同 SSD 在写入性能方面存在显著差异。美光 9550 的写入速度快 78%,同时平均功耗低 22%。这表明美光 9550 完成推理任务的能耗仅为其他产品的一半,且系统总能耗低 43%。

随着计算能力的迅猛发展以及推理领域令人瞩目的实用性创新成果不断涌现,存储技术亟待跟上步伐。数据中心 SSD 的开发周期较长;NAND 制造、ASIC 设计、功耗、散热等环节均对 AI 系统中存储的最终性能起着关键作用。美光多年来一直在测试人工智能 (AI) 工作负载,并将其视为美光 9550 以及其他新一代数据中心 SSD 开发工作的重要组成部分。我们深知,要打造契合未来 AI 工作负载需求的存储解决方案,就必须在当下先人一步。

DeepSpeed ZeRO AIO 读写
测试详情:

DeepSpeed ZeRO AIO 读取——在 GPU 内部通过 DeepSpeed 库模拟合成工作负载。
测试系统:2 颗 Intel Xeon Platinum 8568Y+、768GB DDR5 DRAM、2 块 NVIDIA L40S GPU
竞品是一款 PCIe 5.0 高性能数据中心 SSD,其在规格和目标用例方面与美光 9550 相似。
相关数据通过 850 次测试运行产生,测试历时 446 小时。

美光存储解决方案架构总监

Ryan Meredith

Ryan Meredith 现任美光核心数据中心业务部门数据中心工作负载工程总监,负责测试新技术,助力美光在 AI 和 NVMe-oF/TCP 等领域,以及全闪存软件定义存储技术方面树立思想领袖地位并提升知名度。