- US - English
- China - 简体中文
- India - English
- Japan - 日本語
- Malaysia - English
- Singapore - English
- Taiwan, China - 繁體中文
无效的输入。不支持特殊字符。
我们正在进入新的计算时代。AI 工作负载的占比越来越高,已成为影响企业基础设施战略、硅芯片路线图和业务指令的决定性力量。如今的 AI,规模大到令人咋舌:超大规模企业正在部署单个集群中包含数万块 AI 加速器的系统,正在训练拥有万亿级参数的模型,每个部署区消耗的电力高达数兆瓦。
业界一直在宣扬 AI 的力量——AI 能够改变各行各业,加速各种新发现,并能够增强人类的能力。这些论断并非夸大之词。但是,我们现在必须稍微冷静一下,面对另一个现实:AI 运行所需的动力(也即,运行这些工作负载所需的能量)正在成为 AI 创新面临的重大障碍。
通常能想到的解决方案包括:优化计算;优化机架散热;采购更多绿色电力。这些都是必要的措施,但这些措施现在已经不足以解决问题。长期以来,人们认为计算是影响能效的主要因素,这种假设现在已越来越不符合现实。事实上,这种观念可能掩盖了另一个真正影响能效的因素,也是目前我们尚未充分利用的领域。
那就是内存。
隐藏的能量池
在 AI 基础设施中,内存和存储通常被视为辅助设备——它们必不可少,但并非战略要素。然而,在现代 AI 集群中,内存子系统(包括高带宽内存 [HBM]、DRAM、SSD 以及相关的互连设备)的功耗在系统总功耗中的占比可能高达 50%,具体取决于特定的配置和工作负载。随着模型大小持续增长,数据移动操作日益频繁,内存和存储的功耗占比只会越来越高,节能型内存和存储的重要性也将愈发突出。
为了通过优化计算来降低 AI 的能耗,出现了新的计算范式,例如端侧和分布式架构。有数据就需要处理,数据处理必然消耗能量,而人类每天生成的数据量已经到了惊人的程度。据估计,到 2025 年,全球每天将产生超过 402 艾字节的数据。这种情况下,作为一种自然的选择,AI 正在向着数据生成和存储的位置靠近,而数据驻留在内存和存储设备中。这些新的计算范式使得内存使用量增加,也为整个系统带来了额外的功耗优化机会。
如今,系统总功耗的主要组成部分是数据传输功耗,包括:从内存传输到加速器,从 SSD 转移到 DRAM,以及跨机架和存储网络传输。根据 Semianalysis 的一项独立研究,检查点和集合通信等内存密集型操作现在是超大规模 AI 集群达到峰值功率的主要原因。这些操作可能导致系统功率出现几十兆瓦的瞬时波动,显示出内存在降低系统能耗、维持电网稳定等方面越来越重要的作用。随着技术节点快速扩展和架构创新,计算系统已经得到显著优化,而内存系统的优化却一直比较缓慢。
内存系统是功耗优化的“盲点”。因此,为解决能效问题,我们必须开始着眼于内存。
新的优化规则:内存决定效率
在美光,我们认为未来的可持续 AI 基础设施将由内存主导。这种方法意味着我们需要从内存出发,重新思考整个架构——内存不应作为出现问题后的补救措施,而应从一开始便作为战略性基础设施,用于优化性能和效率。
我们看到,这种思维转换正在发生:
LPDDR 和 HBM:美光的新一代内存技术可提供行业前沿的每瓦特性能,有助于减少能耗,同时不影响带宽。这一成就不仅来自于美光通过采用先进工艺节点所获得的效率提升,还源自于美光致力于优化每种设计中的架构,以实现更高能效的不懈努力。
基于 SSD 的内存分层:利用高性能 SSD 来扩展内存的层次结构,可减少 DRAM 设备的数量,有助于降低闲置功耗。美光利用其行业前沿的第 9 代 NAND 来优化旗下的 SSD 产品组合,以满足每个内存和存储层的特定需求。每次必须存储和移动数据时,都能看到功效显著提升。
尽可能减少数据传输:通过系统架构创新,让数据更接近计算,减少不必要的传输操作,可节约大量能源。
遥测和动态调整:通过对内存子系统的实时功耗分析,可实现智能功耗限制和工作负载感知优化。
这些想法并非理论上的分析。如今它们已部署在世界上一些非常先进的 AI 集群中,运行结果令人欣喜。
战略要务
对于负责基础设施的企业领导者而言,这种转变不仅是一种对新技术的尝试,更是一种战略要求。功耗现已成为决定规模大小的关键因素。总拥有成本 (TCO) 正在快速攀升。可持续发展则是董事会关注的重点。而传统基础设施的发展速度难以跟上 AI 需求的步伐。超大规模 AI 数据中心的工作负载输出不再受到数据中心内部计算硬件的限制。唯一的限制因素是:它们可以从电网中获取多少能量。
以内存为主导的效率优化模式提供了一种全新的工具——现在即可使用,未来可通过扩展来解决新的问题。它使超大规模用户能在相同的供电包络内部署更多容量。它能够降低散热成本和配置成本。它使基础设施团队能在不影响可持续性或成本的前提下,满足下一代 AI 工作负载的需求。
未来展望
当我们展望未来时,“AI 是否会改变世界?”已不再是一个问题——答案是肯定的。我们面临的问题是:如何推动这种转变? 答案不仅在于更快的芯片,或者散热能力更强的数据中心,它还在于更智能的架构,这些架构强调性能和效率更高的内存和存储,并将内存和存储作为提升系统能效的核心。
美光很自豪能投资于相关创新技术、合作伙伴关系和系统,让内存成为大规模可持续 AI 的驱动力,从而引领这一转变。AI 拥有强大的力量,这是毋庸置疑的。但是,以高效、可持续方式运行的超大规模 AI 背后的驱动力量,才是决定下一个创新时代的关键。
让我们一起创造推动 AI 未来的动力!