设计工具

无效的输入。不支持特殊字符。

高带宽内存

内存助力人类实现宏伟目标

HBM4 为人工智能 (AI) 和科学计算提供了可高速处理数据的硬件,从而增强了人类的科学发现能力。想象一下,推理模型正在通过数百万个逻辑步骤研发新型药物;研究人员正在通过为行星上的风暴建模来深入理解地球气候。HBM4 能高速传输 TB 字节的数据,从而使我们能够深入探究那些将决定人类未来的技术与科学问题。

内存助力实现宏伟目标

HBM4 技术规格足以应对未来的严苛挑战

美光 HBM4 采用更宽的 2048 针总线接口,运行速度超过 11.0 Gbps,每堆栈可提供超过 2.8 TB/s 的带宽,是上一代产品的两倍多。扩展后的带宽能够满足新兴 AI 工作负载的需求——无论是包含数百万个词元的超长上下文窗口,还是多模态 AI 系统所需的实时稳定响应能力。

带宽提高一倍以上*

HBM4 规格 - 带宽翻倍 - 2.8TB/s

总线宽度翻倍*


HBM4 规格 - 总线宽度翻倍 - 2048 I/O

能效提升*


HBM4 规格 - 能效提升 20%

* HBM4(12 层堆叠)与 HBM3E(12 层堆叠)对比。在相似速度下,能效以每比特皮焦耳 (pJ/bit) 为单位进行测量。

HBM4 应用:从推理到科学发现

HBM 技术通过解决关键问题——为海量数据提供存储空间并实现快速访问,为 AI 和科学计算开辟了新的道路。随着这些领域的蓬勃发展,相关应用既需要更大的内存容量,也需要极快的数据访问速度。美光的新型 HBM4 既具备更大容量,又能提供 >2.8 TB/s 的带宽,可助力人类攻克更具挑战性的难题,实现宏伟目标。

高级推理

推理模型就像科学家一样,通过一步一步的推理来解决复杂的难题。这些 AI 系统需要耗费大量时间来评估问题,它们会在内存中构建复杂的逻辑链,并探索各种可能的解决路径。该过程对内存容量需求很高,因为模型在推理过程中必须记住大量上下文信息。HBM4 确保模型能够快速访问和更新这些数据,从而实现流畅的推理过程。

高级推理图片

多模态 AI

多模态 AI 系统能够像人类一样同时处理不同类型的数据,包括文本、图像、视频、音频和传感器数据。这些系统不仅能同时处理多种格式,还能将相关数据叠加融合,从而理解“单模态”AI 无法理解的上下文。利用 HBM,AI 系统可以将所有这些格式一起保留在内存中,以便发现它们之间的关联。

机器人采摘西红柿图片

AI 代理

我们可将 AI 代理视为配备了相关工具的 AI 系统,可以利用这些工具执行操作以完成特定任务。1AI 代理必须在内存中存储海量数据集,同时还必须高速访问这些数据,以协调完成复杂的任务。它们擅长将合适的数据与适当的流程连接起来。HBM4 为在多代理系统中协同工作的 AI 代理提供了所需的高带宽,从而能够构建出一个共享的智能网络。

制造过程图片

科学计算与高性能计算

高性能计算 (HPC) 系统使人们能够运行那些在传统计算环境下无法实现的模拟。例如,超级计算机在模拟地球大气层等复杂系统,以及木星上的远古风暴等行星现象时,会在内存中存储海量数据集。HBM4 的容量决定了有多少与问题相关的数据能载入内存,而其带宽则决定了系统解决该问题的速度。

弯曲的地球表面图片

常见问答

下方列出了与 HBM4 相关的常见问答,包括其制造工艺、何时应与其他类型的内存配合使用,以及有关美光前沿 HBM 技术的其他重要信息详情。

HBM 是高带宽内存 (High Bandwidth Memory) 的首字母缩写。“4”表示这是 HBM 的第四代架构。与传统内存中芯片并排排列的结构不同,HBM 将 DRAM 颗粒堆叠在一起,并通过硅通孔 (TSV) 技术在硅片内部建立了直接的电气通路。这意味着数据可以直接穿过硅堆栈,而不是在芯片之间传输。

HBM4 的带宽超过 2.8 TB/s,这一特性对于需要高速传输 TB 级数据的 AI 和 HPC 应用至关重要。例如,高级推理模型在处理问题时,必须评估数百个中间逻辑步骤。在计算过程中,每秒都需要有数 TB 的数据在主内存与处理器之间传输。

HBM4 可与其他类型的内存协同工作,而非取代它们。例如,在现代系统中,CPU 使用 LPDDR5 或 DDR5 来协调系统运行,而 GPU 则使用 HBM4 来处理高强度数学计算任务(即复杂算法)。

HBM4 继承了 HBM3 和 HBM3E 的所有优点,并进一步提升了性能。包括更宽的接口,运行速度超过 11.0 Gbps,带宽是上一代产品的两倍多。这一点至关重要,因为只有足够高的带宽才能满足新兴应用的需求,例如,包含数百万词元的长上下文窗口 AI 工作负载,以及在下一代超级计算机上运行的科学模拟等。

传统 DRAM(如 DDR 内存)用于处理常规计算任务,而 HBM 则支持需要持续传输 TB 级数据流的 AI 和 HPC 应用。HBM 架构将多个超薄 DRAM 颗粒堆叠起来,并利用数千个硅通孔 (TSV) 将这些颗粒连接起来。这种垂直设计对制造精度要求更高,因此 HBM 是生产难度较大的内存产品之一。

HBM4(12 层堆叠)提供每堆叠 36GB 的内存容量(与上一代相同),但其带宽超过 2.8 TB/s。带宽的提升(HBM3E 的两倍多)意味着处理器能以更快速度访问这一容量,从而实现了比上一代同等容量内存更强的处理能力,可处理更复杂的 AI 工作负载和科学模拟。

容量是指内存能存储多少数据,而带宽则是指每秒能传输多少数据。单个 12 层堆叠 HBM4 可存储 36GB 数据。而 2.8 TB/s 的带宽则意味着每秒钟 HBM 与处理器之间传输的数据量相当于 2.8 TB。容量决定了内存中能容纳多少数据,而带宽则决定了访问这些数据的速度。

要制造 HBM,首先要生产三种类型的硅晶圆。第一种是带有 TSV 的颗粒,用于实现电气连接。另一种是不带 TSV 的较厚顶部颗粒。第三种是带有 TSV 的逻辑颗粒,用于通过接口与系统进行连接。

只有通过检测的颗粒才会进入后续的封装工序。随后,专用设备会将多个 DRAM 颗粒堆叠在逻辑颗粒上。最后堆叠的是较厚的顶部 DRAM 颗粒,既提供了存储功能,又确保了结构完整性。封装完成后,将对完整的 HBM 立方体进行最终测试,以验证所有连接是否正常工作。

可以。HBM4 既适用于 GPU,也适用于定制 ASIC(专用集成电路)。HBM4 可连接至任何能够处理其高带宽接口且采用相应封装形式的处理器。

高端计算系统(例如超级计算机)用于解决科学问题,还用于利用艾字节级的数据训练 AI 模型。为了高效完成上述任务,内存必须以足够快的速度传输数据,以确保数千个处理器核心始终处于忙碌状态。凭借超过 2.8 TB/s 的带宽,HBM4 不仅能加速 AI 训练,还能通过更快的 KV 缓存访问来降低 AI 推理中的延迟,并支持更精细的科学模拟。

1 Anthropic。(2026 年 2 月 18 日)。实践当中如何衡量 AI 代理的自主性。https://www.anthropic.com/research/measuring-agent-autonomy