- US - English
- China - 简体中文
- India - English
- Japan - 日本語
- Malaysia - English
- Singapore - English
- Taiwan, China - 繁體中文
无效的输入。不支持特殊字符。
过去三十多年里,随着系统架构的演变,内存已从默默无闻的配角,成长为万众瞩目的核心角色。在早期,我们会担心缓存未命中及 DRAM 延迟。如今,我们正在努力研究如何为万亿参数级 AI 模型提供数据,让 AI 模型不受带宽或功耗的限制。“内存墙”并未消失,只是转移到了新领域。随着 AI 时代的到来,内存墙变得更加高耸。
新时代的“内存墙”问题
1994 年,Wulf 和 McKee 提出了“内存墙”警告,即 CPU 的处理速度远远超过内存访问速度时导致的内存瓶颈。他们的警告催生了一系列架构改进:多级缓存、投机执行、乱序处理等等。然而,这些方法只能在一定程度上发挥作用。
如今,随着 AI 工作负载越来越多,“内存墙”问题的内涵也随之出现了变化。如今的问题不仅在于延迟,还涉及规模、带宽和能耗。训练大语言模型 (LLM) 时,需要实时传输 PB 级的数据流以及存储数百 GB 的权重数据。传统的内存架构,并未专门针对 AI 进行设计。
AI 对内存的要求
AI 模型对内存提出了许多严苛要求。包括:
- 高带宽:可为 GPU 和加速器提供满负荷数据支持。
- 大容量:可保存海量数据集和模型参数。
- 低延迟:支持实时推理和响应。
- 高能效:支持数据中心的可持续发展。
随着 AI 推理日益受到关注,内存系统面临着新的挑战:
- 类似 GPT-3(1,750 亿个参数)或 GPT-4 等现代 LLM 需要数百 GB 的内存来存储权重数据。
- 同时处理多个并发请求时,内存使用量会显著增加。以一个拥有 660 亿个参数并支持 128k 词元上下文的模型为例,10 个并发请求即可消耗超过 3TB 的内存。
- 对于采用注意力机制的模型,当支持更长的上下文窗口(例如,128k 词元)后,内存使用量将呈平方级增长。
- 与训练工作负载不同,推理工作负载通常需要实时响应(如聊天机器人、搜索引擎等),内存延迟会直接影响用户体验。如果内存访问速度缓慢,会导致响应时间变长。
闪存:为数据管道提供数据
AI 不仅受到内存的限制,还受限于存储设备。想要以足够快的速度为 GPU 提供数据,需要配备高性能存储设备。美光 9650 PCIe 6.0 SSD 的读取速度高达 28GB/s,IOPS 高达数百万次,可确保数据管道持续畅通。美光 6600 ION SSD 的容量高达 245TB,支持将整个数据集放在靠近计算的位置,从而尽可能减少 I/O 瓶颈。
这些数据不仅仅是规格参数,更是运行 AI 所需的性能保障。在这些存储设备的支持下,AI 系统能实现大规模运行,并提供最小的延迟和最大的吞吐量。
解决 AI 内存墙挑战
那么,我们是如何应对 AI 内存墙问题的呢? 事实上,我们所提供的并非单一解决方案,而是分层策略:
1. 分层式内存和存储架构
AI 系统需要智能内存分层——将“热数据”放在高速内存(HBM、DDR5)中,将“温数据”放在较慢的内存(LPDDR5、闪存)中,将“冷数据”放在用于存档的存储设备中。随着新用例的出现,这种分层策略也会持续演变。键值缓存需要高性能存储作为内存分层的支撑。围绕 RAG 和向量嵌入展开的新型推理应用开发,需要更多的内存,以及对小块 IO 存储的快速访问。美光的产品组合涵盖所有这些层级,实现无缝数据移动和理想性能。
2. 存内处理 (PIM)
与其将数据移动到计算所在位置,为何不能实现反向移动? 美光正在探索 PIM 架构。该架构可将逻辑嵌入到内存模块中,支持直接在内存中执行过滤或矩阵乘法等操作。这种架构可以减少数据移动、降低功耗,并加速 AI 任务的执行。
3. 高能效内存和存储
AI 工作负载会消耗大量能源。在数据中心总能耗中,内存所占的比例可达 30% 以上。美光在低功耗 DRAM 和新兴非易失性存储器(如 MRAM 和 ReRAM)等领域进行了大量创新,旨在降低内存的功耗。同样,美光 9550 SSD 和 美光 9650 SSD 等存储解决方案的高性能、高能效及非常高的可靠性,有助于在部署大型 AI 系统时节省机架空间、降低能耗和更换成本,从而降低总拥有成本。
4. 软件优化
硬件只是整个解决方案的一部分。更智能的软件(编译器,运行时和编排层等)可以优化内存使用量,压缩数据,并智能地管理缓冲区。美光在该领域开展了广泛合作,有助于确保客户能高效使用内存,而不仅仅只是增加内存容量。
展望未来
我们正在进入全新的计算阶段,内存将不再是计算瓶颈,而是成为一种战略资产。AI 时代需要高速、可扩展、持久且具功耗感知能力的内存和存储系统。展望未来,AI 领域的下一个突破不仅来自更快的处理器,还将来自更智能的内存和存储系统,从而确保大规模部署实现理想 TCO。如今的 TCO 可通过“IOPS/W/$”和“TB/$”等指标组合来衡量,不同用例具有特定的 TCO 要求。AI 时代对内存和存储提出了新的要求,我们正在重新构想未来的内存和存储系统,目标是将内存和存储从 AI 的瓶颈转化为 AI 的助推器。自 30 年前软盘和 32 MB RAM 出现以来,内存和存储领域发生了翻天覆地的变化。我们相信,美光面向未来的内存和存储系统会引发类似的变革,助力解锁远超目前人们所能想象的计算能力。
美光不仅畅想美好未来,更致力于将其变为现实。