欢迎访问 Micron.com,请登录或注册账户以继续。
无效的输入。不支持特殊字符。
* HBM4(12 层堆叠)与 HBM3E(12 层堆叠)对比。在相似速度下,能效以每比特皮焦耳 (pJ/bit) 为单位进行测量。
Micron HBM timeline
- SOCAMM
- SOCAMM
- SOCAMM
- SOCAMM
- SOCAMM
- SOCAMM
HBM4 的带宽超过 2.8 TB/s,这一特性对于需要高速传输 TB 级数据的 AI 和 HPC 应用至关重要。例如,高级推理模型在处理问题时,必须评估数百个中间逻辑步骤。在计算过程中,每秒都需要有数 TB 的数据在主内存与处理器之间传输。
HBM4 可与其他类型的内存协同工作,而非取代它们。例如,在现代系统中,CPU 使用 LPDDR5 或 DDR5 来协调系统运行,而 GPU 则使用 HBM4 来处理高强度数学计算任务(即复杂算法)。
HBM4 继承了 HBM3 和 HBM3E 的所有优点,并进一步提升了性能。包括更宽的接口,运行速度超过 11.0 Gbps,带宽是上一代产品的两倍多。这一点至关重要,因为只有足够高的带宽才能满足新兴应用的需求,例如,包含数百万词元的长上下文窗口 AI 工作负载,以及在下一代超级计算机上运行的科学模拟等。
传统 DRAM(如 DDR 内存)用于处理常规计算任务,而 HBM 则支持需要持续传输 TB 级数据流的 AI 和 HPC 应用。HBM 架构将多个超薄 DRAM 颗粒堆叠起来,并利用数千个硅通孔 (TSV) 将这些颗粒连接起来。这种垂直设计对制造精度要求更高,因此 HBM 是生产难度较大的内存产品之一。
HBM4(12 层堆叠)提供每堆叠 36GB 的内存容量(与上一代相同),但其带宽超过 2.8 TB/s。带宽的提升(HBM3E 的两倍多)意味着处理器能以更快速度访问这一容量,从而实现了比上一代同等容量内存更强的处理能力,可处理更复杂的 AI 工作负载和科学模拟。
容量是指内存能存储多少数据,而带宽则是指每秒能传输多少数据。单个 12 层堆叠 HBM4 可存储 36GB 数据。而 2.8 TB/s 的带宽则意味着每秒钟 HBM 与处理器之间传输的数据量相当于 2.8 TB。容量决定了内存中能容纳多少数据,而带宽则决定了访问这些数据的速度。
要制造 HBM,首先要生产三种类型的硅晶圆。第一种是带有 TSV 的颗粒,用于实现电气连接。另一种是不带 TSV 的较厚顶部颗粒。第三种是带有 TSV 的逻辑颗粒,用于通过接口与系统进行连接。
只有通过检测的颗粒才会进入后续的封装工序。随后,专用设备会将多个 DRAM 颗粒堆叠在逻辑颗粒上。最后堆叠的是较厚的顶部 DRAM 颗粒,既提供了存储功能,又确保了结构完整性。封装完成后,将对完整的 HBM 立方体进行最终测试,以验证所有连接是否正常工作。
可以。HBM4 既适用于 GPU,也适用于定制 ASIC(专用集成电路)。HBM4 可连接至任何能够处理其高带宽接口且采用相应封装形式的处理器。
高端计算系统(例如超级计算机)用于解决科学问题,还用于利用艾字节级的数据训练 AI 模型。为了高效完成上述任务,内存必须以足够快的速度传输数据,以确保数千个处理器核心始终处于忙碌状态。凭借超过 2.8 TB/s 的带宽,HBM4 不仅能加速 AI 训练,还能通过更快的 KV 缓存访问来降低 AI 推理中的延迟,并支持更精细的科学模拟。
1 Anthropic。(2026 年 2 月 18 日)。实践当中如何衡量 AI 代理的自主性。https://www.anthropic.com/research/measuring-agent-autonomy