视角转变：从计算到认知

随着大语言模型 (LLM) 推动 AI 持续向前发展，高带宽内存 (HBM) 将成为下一代 LLM 运行的关键因素，能让 LLM 以空前的速度进行智能的上下文感知推理。

传统上，计算机系统基于确定的线性处理模型而设计：

输入 → 计算 → 输出

但近年来，随着人工智能 (AI) 的爆火，特别是 LLM 的成功应用，原有的范式已开始转变。现在的计算机不再是一台只能进行处理和计算的机器。随着生成式 AI 的出现，由 AI 驱动的聊天机器人（例如知名的 ChatGPT）已具备解读上下文、产生新见解、学习新信息甚至推理的能力。虽然这种机器人尚不具备情感能力，不能像动画片《杰森一家》中深受观众喜爱的机器人管家 Rosey 那样与人类交流，但我们仍然可以将其视为一个有用且具备一定智能的对话伙伴。

您也许想知道，内存在这些智能系统中扮演着什么角色？随着 LLM 参数规模的迅速增长（现在已达到数万亿个），内存变得越发重要。因为这些海量参数集必须存储在内存中，供模型在推理和训练过程中快速访问。HBM 正是为了处理这种需要移动海量数据的场景而设计的，在这类应用中，模型需要频繁访问内存中的大量数据。过去十年，美光不断提升内存技术，以跟上这些大模型的快速发展节奏，助力模型取得成功。在本文中，我们将探讨高带宽内存（特别是美光的 HBM3E）在推动 AI 模型发展方面的重要作用，以及如何让 AI 模型更强大、更有能力、更智能。

图 1. 内存技术如何跟上模型发展步伐，满足其对数据处理的需求

毫秒之差，体验不同

LLM 的迅速崛起向研究人员和工程师提出了新的挑战，他们需要从根本上重新思考计算系统处理和传输信息的方式。正如计算机图形学的进展迫使人们转变思维方式一样——工程师们不仅提高了渲染速度，还重新定义了机器感知和处理视觉信息的方式。如今的 AI 领域也处于类似的状况。当我们将 Anthropic 的 Claude、Google 的 Gemini、Meta 的 Llama 等大语言模型集成到主流应用中时，需要的不仅仅是性能的渐进式提升。在这种情况下，我们需要一种全新的系统，能够支持人与机器之间具备上下文感知能力的动态交互。在为 AI 时代设计硬件时，工程师不能仅仅关注对延迟和能效等传统指标的优化。新系统必须增强对推理任务的理解，支持实时学习，并在类似对话的人机交互中保持连续性。

在人类与 AI 的交互中，短短几毫秒的差异就可能决定用户体验是流畅自然的，还是卡顿糟糕的。在支持数千甚至数百万并发用户的高负载数据中心应用场景（例如实时翻译或 AI 助理）中，HBM3E 等下一代内存所提供的更高带宽和更大容量至关重要。高带宽内存技术可确保系统响应的连续性，在高负载情况下仍然可以保持高质量输出，并为所有用户提供同样水平的、与真人类似的交互。

HBM3E 与 AI 推理

下一代内存硬件通常以带宽和容量的提升为标志，其理念是：“容量越大越好；速度越快越好”。然而，在现代 AI 系统（尤其是 LLM）的应用场景下，这种理念值得商榷。以 HBM3E 为例：更快的数据传输速率（更高的带宽）和更大的内存容量对 AI 推理的影响更为复杂。虽然带宽和容量仍然是内存硬件的关键指标，但它们各自对 LLM 性能的影响却大不相同。我们的目标不仅是为了提高速度而增加带宽，亦或是为了存储更多数据而增加容量；现在我们需要改进这些指标，来支持更高水平的智能——即合成信息和推理的能力。接下来，我们来看看 HBM3E 的一些规格，并讨论这些更高的指标对于 AI 模型究竟意味着什么。

带宽决定计算潜力

基于 HBM3E 的单位立方体的带宽超过 1.2 TB/s。这不仅仅是一个更高的数字¹，还代表着计算潜力。在这种传输速率的支持下，AI 模型能够以空前的速度访问、处理及合成信息，显著降低延迟并提升模型的性能（系统的处理和响应速度）。

容量决定推理深度和复杂度

当前每立方体的内存扩展容量已高达 24 GB²，这不仅意味着存储空间的扩大；大容量还能提升神经网络的认知潜力，更大的模型容量使智能机器能够执行更复杂的任务。传统计算模型主要将内存用作存储设备，而在现代 AI 架构中，内存容量则决定着模型的认知能力，它可以直接转化为更深入的理解、更细致的推理，以及更完善的答案。我们可以这样理解：能够访问更大容量的内存时，LLM 的推理能力将以复合方式提升（或成倍增长）。

借助 HBM3E，我们不仅可以通过数值指标的改进来提升模型性能，还可以通过精心的设计，从基础层面上扩展机器智能的认知潜力。高带宽与大容量相结合，将使 LLM 在与用户交互时更加全面和精确。从技术层面来看，这意味着 LLM 可以处理更大的数据集、每秒处理更多标记、支持更长的输入序列，以及更长的数据格式（如 FP16）。从底层来看，如果没有足够的带宽，这些超大型模型将难以快速访问相关信息。如果没有足够的内存容量，这些模型将缺乏推理深度，无法生成超越简单分析的、全面且具有上下文感知能力的响应。

实验结果

现在，我们来看看一些使用 Meta Llama 2 70B 搭配 DeepSpeed ZeRO-Inference 所做测试的实际结果³，这些结果展示了下一代 HBM 所拥有的变革性潜力：

性能提升： HBM3E 的推理性能高达前代产品的 1.8 倍，内存带宽高达 4.8 TB/s。⁴
可扩展性：HBM3E 支持的批处理大小是前代产品的 2.5 倍，可支持更多并发客户端处理。^4,5
精度和容量：更大的内存容量（144GB，较上一代产品增加 80%）支持以更高精度运行模型。

这些测试结果表明，下一代 HBM 等先进内存技术能够应对 LLM 基础设施面临的关键挑战，并在计算性能和能耗之间实现平衡⁶。新一代 HBM 在运行 LLM 时，推理性能、容量和功耗均有所改善，有望成为构建更智能、更强大 AI 系统的潜在途径。展望未来，未来几代 HBM 技术将支持更多功能，包括计算能力的快速扩展，以及对未来更复杂的模型架构的支持。积极采用这项新技术的数据中心将拥有竞争优势，能够提供更快、更节能、可扩展、以用户为中心的 AI 服务，最终推动各行各业的进步。

了解详情

下载美光发布的技术简介《利用 HBM3E 加速大语言模型推理》，深入了解我们对 HBM3E 在 AI 推理中所起作用的全面分析。
如需了解有关高带宽内存 (HBM) 技术的更多信息，请访问美光的 HBM3E 产品页面。

¹ 每立方体带宽 (TB/s)。NVIDIA Blackwell GPU 的带宽为 8 TB/s，具体数值因 AI 平台而异。

² 与上一代 HBM (HBM3) 的 16GB 容量相比。

³ 我们使用 DeepSpeed ZeRO-Inference 工具对 Meta Llama 2 70B 的性能进行了分析，并使用单块 NVIDIA HGX H200 (HBM3E) 与 NVIDIA HGX H100 (HBM3) 进行了对比测试。

⁴ 基于 INT4 量化模型执行的结果。当 NVIDIA H200 系统 (4.8 TB/s) 搭载了具有更高带宽和更大容量的 HBM3E 后，其中运行的 Llama 2 70B 的推理性能提升至前几代 HBM 的 1.8 倍。

⁵ 基于 INT4 量化模型执行的结果。HBM3E 能够处理的批次大小（推理请求）是上一代 HBM 产品的 2.5 倍，通过同时处理更多数据，单个 GPU 可支持更多并发客户端。

⁶ 为测试最大内存带宽，我们使用了 BabelStream。这是一款微基准测试工具，旨在模拟需要消耗全部带宽的极端情况。采用这种方法，我们能够在评估内存使用峰值的同时测量其功耗。通过让内存在 100% 带宽利用率下运行，我们可以单独计算内存消耗的功率。我们的测试结果表明，在 100% 带宽利用率下，竞品 HBM3E 的功耗最多可高出 30%。

内容战略营销负责人

Evelyn Grevelink

Evelyn 负责领导美光云内存业务部门 (CMBU) 战略营销团队的内容战略。她善于运用富有创意的故事来传递战略价值，在工程和营销部门之间架起沟通的桥梁。Evelyn 擅长撰写引人入胜的内容并设计插图，以传达大语言模型、AI 和先进内存技术的复杂概念。她拥有加州州立大学萨克拉门托分校物理学学士学位。

系统性能工程师

Felippe Vieira Zacarias

Felippe 现任美光系统性能工程师，负责与数据中心工作负载工程团队合作，提供端到端的系统见解，帮助深入了解数据中心工作负载对各层次内存的使用情况。Felippe 在高性能计算和工作负载分析方面拥有丰富的专业知识，曾在知名超级计算中心担任研究工程师。他拥有加泰罗尼亚理工大学计算机架构博士学位

产品概览

搜索、筛选和下载美光数据表

市场与行业概览

AI 数据中心

合作伙伴概览

了解并加入美光技术赋能计划 (TEP)

销售和支持概览

联系美光销售支持团队

美光概览

投资者关系概览

访问美光投资者关系专区

最近搜索