- US - English
- China - 简体中文
- India - English
- Japan - 日本語
- Malaysia - English
- Singapore - English
- Taiwan, China - 繁體中文
无效的输入。不支持特殊字符。
随着大语言模型 (LLM) 推动 AI 持续向前发展,高带宽内存 (HBM) 将成为下一代 LLM 运行的关键因素,能让 LLM 以空前的速度进行智能的上下文感知推理。
传统上,计算机系统基于确定的线性处理模型而设计:
输入 → 计算 → 输出
但近年来,随着人工智能 (AI) 的爆火,特别是 LLM 的成功应用,原有的范式已开始转变。现在的计算机不再是一台只能进行处理和计算的机器。随着生成式 AI 的出现,由 AI 驱动的聊天机器人(例如知名的 ChatGPT)已具备解读上下文、产生新见解、学习新信息甚至推理的能力。虽然这种机器人尚不具备情感能力,不能像动画片《杰森一家》中深受观众喜爱的机器人管家 Rosey 那样与人类交流,但我们仍然可以将其视为一个有用且具备一定智能的对话伙伴。
您也许想知道,内存在这些智能系统中扮演着什么角色? 随着 LLM 参数规模的迅速增长(现在已达到数万亿个),内存变得越发重要。因为这些海量参数集必须存储在内存中,供模型在推理和训练过程中快速访问。HBM 正是为了处理这种需要移动海量数据的场景而设计的,在这类应用中,模型需要频繁访问内存中的大量数据。过去十年,美光不断提升内存技术,以跟上这些大模型的快速发展节奏,助力模型取得成功。在本文中,我们将探讨高带宽内存(特别是美光的 HBM3E)在推动 AI 模型发展方面的重要作用,以及如何让 AI 模型更强大、更有能力、更智能。
毫秒之差,体验不同
LLM 的迅速崛起向研究人员和工程师提出了新的挑战,他们需要从根本上重新思考计算系统处理和传输信息的方式。正如计算机图形学的进展迫使人们转变思维方式一样——工程师们不仅提高了渲染速度,还重新定义了机器感知和处理视觉信息的方式。如今的 AI 领域也处于类似的状况。当我们将 Anthropic 的 Claude、Google 的 Gemini、Meta 的 Llama 等大语言模型集成到主流应用中时,需要的不仅仅是性能的渐进式提升。在这种情况下,我们需要一种全新的系统,能够支持人与机器之间具备上下文感知能力的动态交互。在为 AI 时代设计硬件时,工程师不能仅仅关注对延迟和能效等传统指标的优化。新系统必须增强对推理任务的理解,支持实时学习,并在类似对话的人机交互中保持连续性。
在人类与 AI 的交互中,短短几毫秒的差异就可能决定用户体验是流畅自然的,还是卡顿糟糕的。在支持数千甚至数百万并发用户的高负载数据中心应用场景(例如实时翻译或 AI 助理)中,HBM3E 等下一代内存所提供的更高带宽和更大容量至关重要。高带宽内存技术可确保系统响应的连续性,在高负载情况下仍然可以保持高质量输出,并为所有用户提供同样水平的、与真人类似的交互。
HBM3E 与 AI 推理
下一代内存硬件通常以带宽和容量的提升为标志,其理念是:“容量越大越好;速度越快越好”。然而,在现代 AI 系统(尤其是 LLM)的应用场景下,这种理念值得商榷。以 HBM3E 为例:更快的数据传输速率(更高的带宽)和更大的内存容量对 AI 推理的影响更为复杂。虽然带宽和容量仍然是内存硬件的关键指标,但它们各自对 LLM 性能的影响却大不相同。我们的目标不仅是为了提高速度而增加带宽,亦或是为了存储更多数据而增加容量;现在我们需要改进这些指标,来支持更高水平的智能——即合成信息和推理的能力。接下来,我们来看看 HBM3E 的一些规格,并讨论这些更高的指标对于 AI 模型究竟意味着什么。
带宽决定计算潜力
基于 HBM3E 的单位立方体的带宽超过 1.2 TB/s。这不仅仅是一个更高的数字1,还代表着计算潜力。在这种传输速率的支持下,AI 模型能够以空前的速度访问、处理及合成信息,显著降低延迟并提升模型的性能(系统的处理和响应速度)。
容量决定推理深度和复杂度
当前每立方体的内存扩展容量已高达 24 GB2,这不仅意味着存储空间的扩大;大容量还能提升神经网络的认知潜力,更大的模型容量使智能机器能够执行更复杂的任务。传统计算模型主要将内存用作存储设备,而在现代 AI 架构中,内存容量则决定着模型的认知能力,它可以直接转化为更深入的理解、更细致的推理,以及更完善的答案。我们可以这样理解:能够访问更大容量的内存时,LLM 的推理能力将以复合方式提升(或成倍增长)。
借助 HBM3E,我们不仅可以通过数值指标的改进来提升模型性能,还可以通过精心的设计,从基础层面上扩展机器智能的认知潜力。高带宽与大容量相结合,将使 LLM 在与用户交互时更加全面和精确。从技术层面来看,这意味着 LLM 可以处理更大的数据集、每秒处理更多标记、支持更长的输入序列,以及更长的数据格式(如 FP16)。从底层来看,如果没有足够的带宽,这些超大型模型将难以快速访问相关信息。如果没有足够的内存容量,这些模型将缺乏推理深度,无法生成超越简单分析的、全面且具有上下文感知能力的响应。

实验结果
现在,我们来看看一些使用 Meta Llama 2 70B 搭配 DeepSpeed ZeRO-Inference 所做测试的实际结果3,这些结果展示了下一代 HBM 所拥有的变革性潜力:
- 性能提升: HBM3E 的推理性能高达前代产品的 1.8 倍,内存带宽高达 4.8 TB/s。4
- 可扩展性:HBM3E 支持的批处理大小是前代产品的 2.5 倍,可支持更多并发客户端处理。4,5
- 精度和容量:更大的内存容量(144GB,较上一代产品增加 80%)支持以更高精度运行模型。
这些测试结果表明,下一代 HBM 等先进内存技术能够应对 LLM 基础设施面临的关键挑战,并在计算性能和能耗之间实现平衡6。新一代 HBM 在运行 LLM 时,推理性能、容量和功耗均有所改善,有望成为构建更智能、更强大 AI 系统的潜在途径。展望未来,未来几代 HBM 技术将支持更多功能,包括计算能力的快速扩展,以及对未来更复杂的模型架构的支持。积极采用这项新技术的数据中心将拥有竞争优势,能够提供更快、更节能、可扩展、以用户为中心的 AI 服务,最终推动各行各业的进步。
了解详情
- 下载美光发布的技术简介《利用 HBM3E 加速大语言模型推理》,深入了解我们对 HBM3E 在 AI 推理中所起作用的全面分析。
- 如需了解有关高带宽内存 (HBM) 技术的更多信息,请访问美光的 HBM3E 产品页面。
1 每立方体带宽 (TB/s)。NVIDIA Blackwell GPU 的带宽为 8 TB/s,具体数值因 AI 平台而异。
2 与上一代 HBM (HBM3) 的 16GB 容量相比。
3 我们使用 DeepSpeed ZeRO-Inference 工具对 Meta Llama 2 70B 的性能进行了分析,并使用单块 NVIDIA HGX H200 (HBM3E) 与 NVIDIA HGX H100 (HBM3) 进行了对比测试。
4 基于 INT4 量化模型执行的结果。当 NVIDIA H200 系统 (4.8 TB/s) 搭载了具有更高带宽和更大容量的 HBM3E 后,其中运行的 Llama 2 70B 的推理性能提升至前几代 HBM 的 1.8 倍。
5 基于 INT4 量化模型执行的结果。HBM3E 能够处理的批次大小(推理请求)是上一代 HBM 产品的 2.5 倍,通过同时处理更多数据,单个 GPU 可支持更多并发客户端。
6 为测试最大内存带宽,我们使用了 BabelStream。这是一款微基准测试工具,旨在模拟需要消耗全部带宽的极端情况。采用这种方法,我们能够在评估内存使用峰值的同时测量其功耗。通过让内存在 100% 带宽利用率下运行,我们可以单独计算内存消耗的功率。我们的测试结果表明,在 100% 带宽利用率下,竞品 HBM3E 的功耗最多可高出 30%。