Invalid input. Special characters are not supported.
想象一下,如果您是一位忙碌的上班族:每次收到邮件(即使是琐碎事务),您都必须停下手头工作立即回复。这些干扰不仅会分散您的注意力,还会拖累工作效率,让您的日程安排陷入混乱。若没有写入缓存,计算机就会遭遇类似这样的频繁干扰。
SSD 写入缓存为 AI 应用提供关键加速
自 20 世纪 80 年代起,写入缓存便成为存储系统的一个关键特性1,最初应用于机械硬盘 (HDD),通过 RAID 配置和企业级系统中的回写式与直写式缓存技术实现。其中回写式缓存会先将数据暂存于高速内存,随后再写入硬盘,此过程可缩短完成写入操作的时间,提升系统性能。
随着固态硬盘 (SSD) 和现代 NAND 架构的出现,写入缓存也取得了重大演进。如今,该技术在以下领域发挥着关键作用:降低写入放大效应(即,由于数据重组和垃圾回收等内部处理过程,导致硬盘实际写入的数据量超出用户原始请求的数据量)、在高输入/输出 (I/O) 负载下保持高吞吐量;以及支持实时数据处理。
SSD 动态写入缓存会将写入操作暂存于高速内存(通常是 DRAM 或 SLC 缓存),再提交至速度较慢的 NAND 闪存。此过程可实现更快的写入确认、更低的延迟以及更高的系统响应速度,这些特性对人工智能 (AI) 等数据密集型应用而言不可或缺。与静态或固定缓存不同,动态写入缓存能根据工作负载模式实时调整缓存使用策略,从而优化性能和耐用度。
写入缓存让 AI 运行更快速(及更智能)
写入缓存能为 AI 应用带来多重优化,提升多种场景下的性能,包括 AI 训练、推理延迟、大语言模型效率以及端侧和分布式环境。
AI 模型训练:AI 训练工作负载需要持续的高吞吐量与极低延迟,特别是在处理大规模数据集和复杂神经网络架构时。写入缓存可通过加速数据访问和降低延迟来优化这些工作负载,有效缓解 I/O 瓶颈。这种优化对于维持不同存储层级的性能和可扩展性至关重要。
美光 9550 SSD 与 NVIDIA® H100 GPU 协同运行时,借助 60% 的吞吐量提升,图神经网络的训练速度加快了 33%。这一性能提升还使得 SSD 能耗降低 43%,系统整体能耗减少 29%²。
在 Unet3D 医学图像分割工作负载(来自 MLPerf Storage 基准测试)中,同款 SSD 实现了 5% 的性能提升,同时平均功耗降低 32%,相当于 SSD 能耗减少 35%²。
推理延迟优化:想象以下场景:您向语音助手提了一个问题,几分钟后才获得响应。这种延迟往往源于数据访问速度缓慢。需要实时响应的 AI 应用若要取得成功,降低推理延迟至关重要。无论是对话式 AI、欺诈检测还是自主决策系统,尽可能减少延迟既能保证输出结果的时效性与准确性,又能提升用户体验和系统可靠性。在此过程中,SSD 写入缓存可通过以下三种机制发挥关键作用:加速数据访问、高效管理写入操作,以及优化系统性能。
GATI 预测服务系统通过集成智能缓存层,在实际 AI 工作负载中实现了端到端推理延迟最高降低 7.69 倍的突破性成果³。
大语言模型效率:GPT、LLaMA 等大语言模型 (LLM) 需要高内存带宽来快速高效地处理海量数据。然而,在消费级或内存受限的硬件上运行这些模型可能面临挑战,因为若缺乏高速存储支持,模型性能将显著下降。SSD 写入缓存可改善这一情况,它通过将频繁访问的数据暂存于高速内存,能有效降低延迟,使得即便在性能较低的系统上也能实现推理。
M2Cache 作为一种混合精度多级缓存框架,通过协同利用 DRAM 与 SSD 来管理海量模型参数,在实现可扩展 LLM 推理的同时,将性能损耗控制在最低水平⁴。
端侧 AI 与分布式环境:在端侧计算中,由于硬件资源受限及本地化推理需求,写入缓存变得尤为重要。智能摄像头、轻薄笔记本电脑、车载终端等端侧设备往往内存和处理能力有限,难以处理庞大数据集和复杂计算。此时,快速访问本地数据并实现实时决策至关重要。缓存技术可通过将频繁访问的数据暂存于更靠近端侧的位置,来提供助力,既有效降低了延迟,又提高了实时数据处理与推理任务的效率。
采用 Redis 作为分布式缓存并搭配 NVIDIA Triton 推理服务器后,系统推理吞吐量从每秒 80 次推理提升至 329 次,延迟从 12,680 微秒降至 3,030 微秒,也就是说,吞吐量提升至四倍,延迟降低至四分之一⁵。
SSD 写入缓存赋能 AI 发展
从智能手机到自动驾驶汽车,您会发现,AI 已无处不在,而它的运行速度完全取决于数据访问能力。
写入缓存是推动 AI 进步的关键技术;它能确保模型高效扩展和无缝运行。要想维持高 I/O 吞吐量、实现实时端侧智能、提升能源效率以及优化多代理系统性能,SSD 写入缓存均不可或缺。这项技术通过缓解瓶颈、突破硬件限制、降低能量功耗以及提供快速本地缓存访问,成为打造响应迅捷、高效且可扩展的下一代 AI 系统的关键驱动要素。
1. Anderson, D. 2001 年。《An Introduction to Storage Architectures》。IBM Redbooks。检索自 https://www.redbooks.ibm.com/redbooks/pdfs/sg246363.pdf
2. 美光科技。2024 年。“美光 9550 SSD 以更低功耗加速运行 AI 工作负载”。检索自 https://my.micron.com/about/blog/storage/ai/complete-ai-workloads-faster-using-less-power-with-the-micron-9550-ssd
3. Harlap, A. 等。2021 年。“GATI: Learning-Based Inference Caching”。arXiv 预印本。检索自 https://arxiv.org/abs/2101.07344
4. Wang, Y. 等。2024 年。“M2Cache: Mixed-Precision and Multi-Level Cache for Efficient LLM Inference”。arXiv 预印本。检索自 https://arxiv.org/abs/2410.14740
5. Serverion。2024 年。“Top 7 Data Caching Techniques for AI Workloads”。检索自 https://www.serverion.com/uncategorized/top-7-data-caching-techniques-for-ai-workloads