设计工具

Invalid input. Special characters are not supported.

洞察

从数据到决策:为何 SSD 写入缓存对 AI 应用至关重要

Josh Goltermann | 2025 年 6 月

pause

想象一下,如果您是一位忙碌的上班族:每次收到邮件(即使是琐碎事务),您都必须停下手头工作立即回复。这些干扰不仅会分散您的注意力,还会拖累工作效率,让您的日程安排陷入混乱。若没有写入缓存,计算机就会遭遇类似这样的频繁干扰。

SSD 写入缓存为 AI 应用提供关键加速

自 20 世纪 80 年代起,写入缓存便成为存储系统的一个关键特性1,最初应用于机械硬盘 (HDD),通过 RAID 配置和企业级系统中的回写式与直写式缓存技术实现。其中回写式缓存会先将数据暂存于高速内存,随后再写入硬盘,此过程可缩短完成写入操作的时间,提升系统性能。

随着固态硬盘 (SSD) 和现代 NAND 架构的出现,写入缓存也取得了重大演进。如今,该技术在以下领域发挥着关键作用:降低写入放大效应(即,由于数据重组和垃圾回收等内部处理过程,导致硬盘实际写入的数据量超出用户原始请求的数据量)、在高输入/输出 (I/O) 负载下保持高吞吐量;以及支持实时数据处理。

SSD 动态写入缓存会将写入操作暂存于高速内存(通常是 DRAM 或 SLC 缓存),再提交至速度较慢的 NAND 闪存。此过程可实现更快的写入确认、更低的延迟以及更高的系统响应速度,这些特性对人工智能 (AI) 等数据密集型应用而言不可或缺。与静态或固定缓存不同,动态写入缓存能根据工作负载模式实时调整缓存使用策略,从而优化性能和耐用度。

写入缓存让 AI 运行更快速(及更智能)

写入缓存能为 AI 应用带来多重优化,提升多种场景下的性能,包括 AI 训练、推理延迟、大语言模型效率以及端侧和分布式环境。

AI 模型训练:AI 训练工作负载需要持续的高吞吐量与极低延迟,特别是在处理大规模数据集和复杂神经网络架构时。写入缓存可通过加速数据访问和降低延迟来优化这些工作负载,有效缓解 I/O 瓶颈。这种优化对于维持不同存储层级的性能和可扩展性至关重要。

美光 9550 SSD 与 NVIDIA® H100 GPU 协同运行时,借助 60% 的吞吐量提升,图神经网络的训练速度加快了 33%。这一性能提升还使得 SSD 能耗降低 43%,系统整体能耗减少 29%²

在 Unet3D 医学图像分割工作负载(来自 MLPerf Storage 基准测试)中,同款 SSD 实现了 5% 的性能提升,同时平均功耗降低 32%,相当于 SSD 能耗减少 35%²

推理延迟优化:想象以下场景:您向语音助手提了一个问题,几分钟后才获得响应。这种延迟往往源于数据访问速度缓慢。需要实时响应的 AI 应用若要取得成功,降低推理延迟至关重要。无论是对话式 AI、欺诈检测还是自主决策系统,尽可能减少延迟既能保证输出结果的时效性与准确性,又能提升用户体验和系统可靠性。在此过程中,SSD 写入缓存可通过以下三种机制发挥关键作用:加速数据访问、高效管理写入操作,以及优化系统性能。

GATI 预测服务系统通过集成智能缓存层,在实际 AI 工作负载中实现了端到端推理延迟最高降低 7.69 倍的突破性成果³

大语言模型效率:GPT、LLaMA 等大语言模型 (LLM) 需要高内存带宽来快速高效地处理海量数据。然而,在消费级或内存受限的硬件上运行这些模型可能面临挑战,因为若缺乏高速存储支持,模型性能将显著下降。SSD 写入缓存可改善这一情况,它通过将频繁访问的数据暂存于高速内存,能有效降低延迟,使得即便在性能较低的系统上也能实现推理。

M2Cache 作为一种混合精度多级缓存框架,通过协同利用 DRAM 与 SSD 来管理海量模型参数,在实现可扩展 LLM 推理的同时,将性能损耗控制在最低水平。 

端侧 AI 与分布式环境:在端侧计算中,由于硬件资源受限及本地化推理需求,写入缓存变得尤为重要。智能摄像头、轻薄笔记本电脑、车载终端等端侧设备往往内存和处理能力有限,难以处理庞大数据集和复杂计算。此时,快速访问本地数据并实现实时决策至关重要。缓存技术可通过将频繁访问的数据暂存于更靠近端侧的位置,来提供助力,既有效降低了延迟,又提高了实时数据处理与推理任务的效率。

采用 Redis 作为分布式缓存并搭配 NVIDIA Triton 推理服务器后,系统推理吞吐量从每秒 80 次推理提升至 329 次,延迟从 12,680 微秒降至 3,030 微秒,也就是说,吞吐量提升至四倍,延迟降低至四分之一

SSD 写入缓存赋能 AI 发展

从智能手机到自动驾驶汽车,您会发现,AI 已无处不在,而它的运行速度完全取决于数据访问能力。

写入缓存是推动 AI 进步的关键技术;它能确保模型高效扩展和无缝运行。要想维持高 I/O 吞吐量、实现实时端侧智能、提升能源效率以及优化多代理系统性能,SSD 写入缓存均不可或缺。这项技术通过缓解瓶颈、突破硬件限制、降低能量功耗以及提供快速本地缓存访问,成为打造响应迅捷、高效且可扩展的下一代 AI 系统的关键驱动要素。

详细了解美光 SSD

1. Anderson, D. 2001 年。《An Introduction to Storage Architectures》。IBM Redbooks。检索自 https://www.redbooks.ibm.com/redbooks/pdfs/sg246363.pdf
2. 美光科技。2024 年。“美光 9550 SSD 以更低功耗加速运行 AI 工作负载”。检索自 https://my.micron.com/about/blog/storage/ai/complete-ai-workloads-faster-using-less-power-with-the-micron-9550-ssd
3. Harlap, A. 等。2021 年。“GATI: Learning-Based Inference Caching”。arXiv 预印本。检索自 https://arxiv.org/abs/2101.07344
4. Wang, Y. 等。2024 年。“M2Cache: Mixed-Precision and Multi-Level Cache for Efficient LLM Inference”。arXiv 预印本。检索自 https://arxiv.org/abs/2410.14740
5. Serverion。2024 年。“Top 7 Data Caching Techniques for AI Workloads”。检索自 https://www.serverion.com/uncategorized/top-7-data-caching-techniques-for-ai-workloads

PC Client Marketing Strategy and Content Lead

Joshua Goltermann

As the PC client marketing strategy and content lead, Josh is responsible for Micron’s memory and storage portfolio for the PC-client segment. He has directed launches related to Micron’s storage portfolio, including the 6550 ION and 4600 SSD. Prior to marketing, Josh spent 10 years working on understanding client SSD performance.

Josh holds degrees in information technology management and marketing from Boise State University.