设计工具

无效的输入。不支持特殊字符。

AI

视角转变:从计算到认知

Evelyn Grevelink、Felippe Vieira Zacarias | 2025 年 4 月

随着大语言模型 (LLM) 推动 AI 持续向前发展,高带宽内存 (HBM) 将成为下一代 LLM 运行的关键因素,能让 LLM 以空前的速度进行智能的上下文感知推理。

传统上,计算机系统基于确定的线性处理模型而设计:

输入 → 计算 → 输出


但近年来,随着人工智能 (AI) 的爆火,特别是 LLM 的成功应用,原有的范式已开始转变。现在的计算机不再是一台只能进行处理和计算的机器。随着生成式 AI 的出现,由 AI 驱动的聊天机器人(例如知名的 ChatGPT)已具备解读上下文、产生新见解、学习新信息甚至推理的能力。虽然这种机器人尚不具备情感能力,不能像动画片《杰森一家》中深受观众喜爱的机器人管家 Rosey 那样与人类交流,但我们仍然可以将其视为一个有用且具备一定智能的对话伙伴。

您也许想知道,内存在这些智能系统中扮演着什么角色? 随着 LLM 参数规模的迅速增长(现在已达到数万亿个),内存变得越发重要。因为这些海量参数集必须存储在内存中,供模型在推理和训练过程中快速访问。HBM 正是为了处理这种需要移动海量数据的场景而设计的,在这类应用中,模型需要频繁访问内存中的大量数据。过去十年,美光不断提升内存技术,以跟上这些大模型的快速发展节奏,助力模型取得成功。在本文中,我们将探讨高带宽内存(特别是美光的 HBM3E)在推动 AI 模型发展方面的重要作用,以及如何让 AI 模型更强大、更有能力、更智能。

AI 与内存硬件 10 年发展时间表

图 1. 内存技术如何跟上模型发展步伐,满足其对数据处理的需求

毫秒之差,体验不同

LLM 的迅速崛起向研究人员和工程师提出了新的挑战,他们需要从根本上重新思考计算系统处理和传输信息的方式。正如计算机图形学的进展迫使人们转变思维方式一样——工程师们不仅提高了渲染速度,还重新定义了机器感知和处理视觉信息的方式。如今的 AI 领域也处于类似的状况。当我们将 Anthropic 的 Claude、Google 的 Gemini、Meta 的 Llama 等大语言模型集成到主流应用中时,需要的不仅仅是性能的渐进式提升。在这种情况下,我们需要一种全新的系统,能够支持人与机器之间具备上下文感知能力的动态交互。在为 AI 时代设计硬件时,工程师不能仅仅关注对延迟和能效等传统指标的优化。新系统必须增强对推理任务的理解,支持实时学习,并在类似对话的人机交互中保持连续性。

在人类与 AI 的交互中,短短几毫秒的差异就可能决定用户体验是流畅自然的,还是卡顿糟糕的。在支持数千甚至数百万并发用户的高负载数据中心应用场景(例如实时翻译或 AI 助理)中,HBM3E 等下一代内存所提供的更高带宽和更大容量至关重要。高带宽内存技术可确保系统响应的连续性,在高负载情况下仍然可以保持高质量输出,并为所有用户提供同样水平的、与真人类似的交互。

HBM3E 与 AI 推理

下一代内存硬件通常以带宽和容量的提升为标志,其理念是:“容量越大越好;速度越快越好”。然而,在现代 AI 系统(尤其是 LLM)的应用场景下,这种理念值得商榷。以 HBM3E 为例:更快的数据传输速率(更高的带宽)和更大的内存容量对 AI 推理的影响更为复杂。虽然带宽和容量仍然是内存硬件的关键指标,但它们各自对 LLM 性能的影响却大不相同。我们的目标不仅是为了提高速度而增加带宽,亦或是为了存储更多数据而增加容量;现在我们需要改进这些指标,来支持更高水平的智能——即合成信息和推理的能力。接下来,我们来看看 HBM3E 的一些规格,并讨论这些更高的指标对于 AI 模型究竟意味着什么。

带宽决定计算潜力

基于 HBM3E 的单位立方体的带宽超过 1.2 TB/s。这不仅仅是一个更高的数字1,还代表着计算潜力。在这种传输速率的支持下,AI 模型能够以空前的速度访问、处理及合成信息,显著降低延迟并提升模型的性能(系统的处理和响应速度)。

容量决定推理深度和复杂度 

当前每立方体的内存扩展容量已高达 24 GB2,这不仅意味着存储空间的扩大;大容量还能提升神经网络的认知潜力,更大的模型容量使智能机器能够执行更复杂的任务。传统计算模型主要将内存用作存储设备,而在现代 AI 架构中,内存容量则决定着模型的认知能力,它可以直接转化为更深入的理解、更细致的推理,以及更完善的答案。我们可以这样理解:能够访问更大容量的内存时,LLM 的推理能力将以复合方式提升(或成倍增长)。

借助 HBM3E,我们不仅可以通过数值指标的改进来提升模型性能,还可以通过精心的设计,从基础层面上扩展机器智能的认知潜力。高带宽与大容量相结合,将使 LLM 在与用户交互时更加全面和精确。从技术层面来看,这意味着 LLM 可以处理更大的数据集、每秒处理更多标记、支持更长的输入序列,以及更长的数据格式(如 FP16)。从底层来看,如果没有足够的带宽,这些超大型模型将难以快速访问相关信息。如果没有足够的内存容量,这些模型将缺乏推理深度,无法生成超越简单分析的、全面且具有上下文感知能力的响应。

紫色和白色组成的图表,展示了美光 HBM3E H200 较前代产品的吞吐量提升

实验结果

现在,我们来看看一些使用 Meta Llama 2 70B 搭配 DeepSpeed ZeRO-Inference 所做测试的实际结果3,这些结果展示了下一代 HBM 所拥有的变革性潜力:

  • 性能提升: HBM3E 的推理性能高达前代产品的 1.8 倍,内存带宽高达 4.8 TB/s。4
  • 可扩展性:HBM3E 支持的批处理大小是前代产品的 2.5 倍,可支持更多并发客户端处理。4,5
  • 精度和容量:更大的内存容量(144GB,较上一代产品增加 80%)支持以更高精度运行模型。

这些测试结果表明,下一代 HBM 等先进内存技术能够应对 LLM 基础设施面临的关键挑战,并在计算性能和能耗之间实现平衡6。新一代 HBM 在运行 LLM 时,推理性能、容量和功耗均有所改善,有望成为构建更智能、更强大 AI 系统的潜在途径。展望未来,未来几代 HBM 技术将支持更多功能,包括计算能力的快速扩展,以及对未来更复杂的模型架构的支持。积极采用这项新技术的数据中心将拥有竞争优势,能够提供更快、更节能、可扩展、以用户为中心的 AI 服务,最终推动各行各业的进步。

了解详情

  • 下载美光发布的技术简介《利用 HBM3E 加速大语言模型推理》,深入了解我们对 HBM3E 在 AI 推理中所起作用的全面分析。
  • 如需了解有关高带宽内存 (HBM) 技术的更多信息,请访问美光的 HBM3E 产品页面。

1 每立方体带宽 (TB/s)。NVIDIA Blackwell GPU 的带宽为 8 TB/s,具体数值因 AI 平台而异。

2 与上一代 HBM (HBM3) 的 16GB 容量相比。

3 我们使用 DeepSpeed ZeRO-Inference 工具对 Meta Llama 2 70B 的性能进行了分析,并使用单块 NVIDIA HGX H200 (HBM3E) 与 NVIDIA HGX H100 (HBM3) 进行了对比测试。

4 基于 INT4 量化模型执行的结果。当 NVIDIA H200 系统 (4.8 TB/s) 搭载了具有更高带宽和更大容量的 HBM3E 后,其中运行的 Llama 2 70B 的推理性能提升至前几代 HBM 的 1.8 倍。

5 基于 INT4 量化模型执行的结果。HBM3E 能够处理的批次大小(推理请求)是上一代 HBM 产品的 2.5 倍,通过同时处理更多数据,单个 GPU 可支持更多并发客户端。

6 为测试最大内存带宽,我们使用了 BabelStream。这是一款微基准测试工具,旨在模拟需要消耗全部带宽的极端情况。采用这种方法,我们能够在评估内存使用峰值的同时测量其功耗。通过让内存在 100% 带宽利用率下运行,我们可以单独计算内存消耗的功率。我们的测试结果表明,在 100% 带宽利用率下,竞品 HBM3E 的功耗最多可高出 30%。

内容战略营销负责人

Evelyn Grevelink

Evelyn 负责领导美光云内存业务部门 (CMBU) 战略营销团队的内容战略。她善于运用富有创意的故事来传递战略价值,在工程和营销部门之间架起沟通的桥梁。Evelyn 擅长撰写引人入胜的内容并设计插图,以传达大语言模型、AI 和先进内存技术的复杂概念。她拥有加州州立大学萨克拉门托分校物理学学士学位。 

系统性能工程师

Felippe Vieira Zacarias

Felippe 现任美光系统性能工程师,负责与数据中心工作负载工程团队合作,提供端到端的系统见解,帮助深入了解数据中心工作负载对各层次内存的使用情况。Felippe 在高性能计算和工作负载分析方面拥有丰富的专业知识,曾在知名超级计算中心担任研究工程师。他拥有加泰罗尼亚理工大学计算机架构博士学位