设计工具

无效的输入。不支持特殊字符。

SSD

SC25 大会上的性能突破演示:单台服务器性能高达 230M IOPS

Ryan Meredith | 2025 年 11 月

我们非常自豪地宣布,AI 基础设施性能达成了一项重大里程碑:通过使用 NVIDIA SCADA 编程模型、美光 9650 PCIe® 6.0 SSD、Broadcom PEX90000 PCIe 6.0 交换机及 H3 平台 Falcon 6048 PCIe 6.0 服务器,我们实现了高达 2.3 亿 IOPS 的性能。

规模化加速数据访问 (SCADA) 是一种安全的编程模型和技术堆栈,最早在 BaM 系统架构中的 GPU 主动按需高吞吐量存储访问技术中采用。这是存储生态系统中的一项重大举措,由 NVIDIA、美光等公司携手开发,旨在定义并实现一种新的基础设施,以访问远超本地内存限制的海量数据集。SCADA 直接使用 NVMe 设备来执行加载/存储操作,防止出现内存不足错误。此外,通过将存储控制转移到受信任的 DPU 上,SCADA 可持续保持高性能,并保护共享数据免受不安全计算节点的影响。

这一成果展示了 GPU 驱动的存储编排技术、下一代互连设备及业界速度顶尖的 SSD 结合时,所迸发出的强大性能。

欢迎参加 2025 年全球超级计算大会 (SC25) 并莅临美光展位(展位号:3516),现场观看此演示(本博客末尾提供了详细信息)。

美光 9650:全球速度顶尖的 SSD

美光 9650 SSD 的重要意义不仅在于超高的原生性能,更在于通过速度、能效及互操作性之间的平衡,赋能下一代 AI 和高性能计算工作负载。作为全球首款 PCIe 6.0 SSD(美光在 2025 年 FMS 大会上率先宣布推出支持 AI 革命的 SSD 组合),美光 9650 实现了创纪录的吞吐量和 IOPS,同时支持广泛的生态系统集成。过去两年,美光与 PCIe 6.0 领域的合作伙伴密切合作,进行了大量互操作性测试,为今年的广泛采用奠定了基础。美光 9650 采用 PCIe 6.0 架构,并针对小数据块操作进行了优化,专为 NVIDIA SCADA 等 GPU 驱动环境而构建。

NVIDIA SCADA 可提升吞吐量以大规模加速 AI 工作负载

SCADA 代表了 NVIDIA 对于 GPU 驱动存储系统操作的构想。通过在 GPU 和存储设备之间建立直接连接,SCADA 可绕过传统的 CPU 堵塞点,加速数据在 GPU 和存储设备之间的传输。SCADA 是 NVIDIA 多年研究和工程开发的成果,旨在使 GPU 能够直接编排 NVMe 事务,为小块数据操作提供前所未有的吞吐量和 IOPS。此类操作对于图神经网络(用于药物发现、社交网络、知识图谱等)等 AI 工作负载的大规模加速至关重要。如需了解有关 SCADA 的更多信息,请参阅 NVIDIA 在 FMS 2025 大会上的演示文稿:《推进内存和存储架构,以支持下一代 AI 工作负载》。

Broadcom 和 H3:业界前沿服务器平台

NVIDIA GPU 依靠 H3 Falcon 6048 PCIe 6.0 服务器实现对存储系统的编排。服务器集成了多台 Broadcom 的 PEX90000 PCIe 6.0 交换机。这些 PCIe 6.0 交换机可提供超低延迟、高带宽,以及足够的端口密度,实现了强大的可扩展性,能够满足 GPU 与 NVMe 设备之间的无缝互联需求。

这些 PCIe 6.0 交换机部署在基于 H3 平台的 Falcon 6048 服务器中,从而将加速器和存储设备整合到一个针对 PCIe 6.0 优化的单一架构中。该系统支持安装 44 块 E1.S 规格美光 9650 SSD,每块 SSD 通过一个 PCIe 6.0 x4 接口连接到系统。H3 平台支持高级遥测和诊断功能,简化了大规模 AI 架构的管理。此外,该平台还与各种 CPU、GPU、SSD(特别是美光 9650)、网卡和重定时器进行了大量互操作性测试,确保这些硬件能够可靠无忧地部署到平台上。

Nvidia SCADA 工作负载测试图表

现场演示:2.3 亿 IOPS 是如何实现的

我们在 SC25 大会上的演示,不仅是相关硬件性能的证明,更是系统架构发展中的一个里程碑。我们使用了一台基于 H3 平台打造的 Falcon 6048 服务器,配置如下:

  • 44 块美光 9650 PCIe 6.0 SSD (E1.S,7.68TB)
  • 3 块 NVIDIA H100 PCIe 5.0 GPU(搭载 NVL 96GB HBM3)
  • 1 块英特尔 PCIe 5.0 CPU 
  • 3 台 Broadcom PEX90000 PCIe 6.0 系列交换机(每台 144 个通道)

通过运行 SOL 基准测试中的 SCADA 工作负载,我们实现了高达 2.3 亿 IOPS 的 512B 随机读取性能。该基准测试旨在衡量从一组 SSD 中访问数据时,GPU 线程所能实现的随机读取性能 (IOPS)。测试数据表明,当从 1 块 SSD 逐步增加到 44 块 SSD 时,该系统具备线性扩展能力。测试证明,GPU 驱动的 I/O 与 PCIe 6.0 基础设施相结合,可实现巨大的价值。

随后我们调整了 SOL 基准测试,同时运行三个实例,随机访问 44 块 SSD,进行 256 次迭代(每个队列对的 I/O * 512),使用 8 个队列对,以获得最佳性能。

为何新架构对 AI 和高性能计算至关重要?

随着 AI 模型日益复杂,推理过程使用的数据量持续增加,存储可能会成为整个系统的瓶颈。SCADA 颠覆了传统模式,让 GPU 直接通过存储设备驱动 I/O,从而降低了延迟,并最大限度提高了带宽利用率。在 PCIe 6.0 和高性能 SSD 的支持下,这种新架构能够为向量数据库、图神经网络和大规模推理管线等工作负载提供实时访问海量数据的能力。

现场体验

欢迎参加 11 月 18 日至 20 日在圣路易斯举行的 SC25 大会,并莅临美光展位(展位号:3516),现场体验这一突破性成果。我们将为您提供:

  • 有关系统架构和性能指标的动画演示。
  • 一台顶部打开的 H3 Falcon 6048 服务器,您可以看到其中搭载的美光 9650 SSD、NVIDIA H100 GPU,以及 DDR5 DRAM 等硬件。
  • Broadcom PEX90000 PCIe 6.0 系列交换机的硬件样品。
  • 现场专家将为您讲解 SCADA、PCIe 6.0、Broadcom PCIe 交换机及美光 SSD 如何塑造 AI 基础设施的未来。

 

数据中心工作负载工程总监

Ryan Meredith

Ryan Meredith 现任美光科技数据中心工作负载工程总监。他负责领导面向企业与云存储的工作负载驱动型工程设计,为美光的 NVMe SSD 产品组合(涵盖 AI、数据库及现代数据服务领域)提供发布宣传材料和性能支撑数据。Ryan 和他的团队专注于将应用的行为转化为对设备和系统的要求,实现在现有条件下提高吞吐量、QoS 和能源效率的目标。

相关博客