AI

为何内存容量是智能体 AI 工作站中真正的性能瓶颈

Alejandro Breton Garcia

抽象的霓虹波浪,包含发光的线条以及蓝紫色调的光斑

随着 AI 智能体的运行时间越来越长,且往往并发运行,现实中 AI 工作站性能的关键决定因素已不仅仅是计算能力,还包括内存容量。在拉斯维加斯举办的 Dell Technologies World (DTW) 大会上,美光通过并排演示,凸显了个人 AI 计算领域的一项关键转变:AI 正越来越多地在本地 AI 工作站上运行,在此类工作站中,用户可与具备图像生成、意图解读及实时迭代能力的智能体持续交互。在此背景下,系统性能的衡量不再主要取决于峰值规格数据,而更多取决于执行质量——即系统能否在用户提示和迭代不断累积的情况下,在长时间的交互周期中始终保持流畅运行,不会出现响应逐渐迟缓的情况。

AI 工作站:让端侧 AI 落地的桥梁

类似 Dell Pro Max 系列 AI 工作站这样的设备,是端侧 AI 发展进程中的重要里程碑,它们让强大的 AI 能力从主要依赖云端转变为可在本地直接访问——即 AI 与需要 AI 的应用位于同一个地方。AI 工作站专为在本地运行高级 AI 工作负载而设计,支持长期运行的并发 AI 智能体,这些智能体能够保留上下文信息并实时执行多个模型,无需在每次交互时都依赖云端。与传统台式机不同,AI 工作站的性能取决于它们长时间支持内存密集型、有状态工作流的能力,而不仅仅是峰值计算数据。这种本地 AI 能力至关重要。这使得 AI 在迭代式工作流中的响应更加迅速,降低了对网络连接的依赖,并能够实现敏感数据的近用户端存储保留。同样重要的是,这些系统凸显了内存是实现端侧 AI 落地的核心赋能因素的原因。现代的智能体化、多模型工作流具有上下文依赖度高且运行周期长的特征,若系统缺乏充足的内存容量和带宽,这些工作流很快就会成为系统瓶颈。在 AI 工作站中将强大的计算能力与充足的高带宽内存相结合,能够使系统运行更大规模的模型、保持更丰富的上下文信息,同时并发执行多项 AI 任务,不仅可助力构建快速、本地化 AI 体验的前景,也可加速推动端侧 AI 的广泛应用。

智能体化与并发工作流率先暴露内存瓶颈

AI 智能体会对系统产生持续压力。它们在交互过程中持续处于活跃状态,能够保留上下文信息,且常需同时运行多个模型。这些长期运行的并发工作流能够快速揭示系统各部分的运行是否畅通,是否会在某些部分产生阻塞。

搭载 NVIDIA GB10 Grace Blackwell 超级芯片的 Dell Pro Max GB10 专为此类应用场景设计。该工作站采用统一内存架构 (UMA),Grace CPU 和 Blackwell GPU 可共享一个由美光 LPDDR5X 内存(速率达 8.5 Gbps)组成的、单一一致性内存池,该内存池可提供高达 273 GBps 的带宽。

持续运行的 AI 工作负载揭示系统级瓶颈

在计算能力和内存带宽足够的情况下,随着时间的推移,内存容量将对 AI 工作流的流畅运行产生越来越大的影响。这印证了美光在整个生态系统中观察到的更广泛的架构相关现实:随着 AI 工作负载的智能体化与并发程度不断提升,系统性能将由来自不同维度的一系列因素共同决定——包括存储速度、热管理、供电能力和内存容量,而每个因素的重要性会根据工作负载和系统配置的不同而有所变化。尽管内存容量并非唯一决定因素,但在上述由各种相互关联的性能变量构成的生态系统中,内存容量已成为一个至关重要且日益突出的影响因素。

面向 AI PC 和工作站的内存

图 1:2026 年 5 月,美光在拉斯维加斯举行的 Dell Technologies World 大会上进行的“面向 AI PC 和工作站的内存”演示。由美光 LPDDR5X 驱动、并排部署的 Dell Pro Max 系统正在处理并发运行的智能体 AI 工作负载

处于持续内存压力下的真实场景智能体工作流

在演示中,两台配置相同的 Dell Pro Max 系统运行相同的智能体工作流:用户对着麦克风讲话,语音转文本算法在本地将用户输入的内容转录成文字,然后大语言模型 (LLM) 生成图像提示词。随后,系统在 GPU 和 CPU 上并行运行 Stable Diffusion 3.5 Large Turbo(用于图像生成)及 Qwen3.5 35B A3B 推理模型,构建真实且持续的内存需求场景,反映下一代 AI 工作负载的实际运行情况。

为何内存容量(而非计算能力)决定了工作流的流畅性

这两套系统之间的唯一区别在于容量——分别搭载了 64GB 以及 128GB 的 LPDDR5X 内存。在本地运行 AI 工作负载而非依赖数据中心运行时,这一容量差异就变得至关重要。128GB 系统的工作流处理速度大约提高 30%,运行更流畅,卡顿更少,从而减少了将任务卸载至云端的需要。内存容量较小时,CPU 需要更频繁地传输数据,在此期间 GPU 则处于等待状态;内存容量充足时,所有数据都保存在本地,整体系统可流畅运行。

128GB 不再是过度配置——只是留有余地

乍看之下,128GB 内存对于台式机级别的系统似乎已足够充裕——但在智能体 AI 应用中,这一容量正迅速成为新的基线。单个现代推理模型本身便可能占用 25GB 至 30GB 的内存空间,图像扩散模型会再占用超过 20GB,而语音识别、嵌入模型以及不断扩大的上下文窗口等辅助组件所占用的内存空间也在持续增加。UMA 架构之下,CPU、GPU 和操作系统共享同一个内存池,因此每个处于活动状态的组件都会从同一内存池中分配资源。随着智能体能力的不断提升——能够处理更长的对话、更大的上下文窗口以及更多的并发任务,其内存需求也将随之增长。128GB 并非过度配置,只是为未来留出了余地。当前对内存容量的投资,意味着随着智能体 AI 逐渐成熟,工作站仍能保持流畅的运行状态与充足的处理能力。

内存容量作为首要的设计决策考量因素

随着 AI 工作站从处理突发性推理任务的机器演变为支持长期运行的智能体工作流平台,内存容量已成为首要的设计决策考量因素。那些基于过往工作负载进行配置的系统,未来可能悄然引发各种问题——迭代速度变慢、任务管线停滞,以及用户体验下降。

面向未来的 AI 工作站设计

当前的机遇在于,从一开始就设计出具备充足内存扩展空间的 AI 工作站。通过将高性能计算平台与美光的大容量、高带宽内存相结合,OEM 和企业能够确保其 AI 系统始终运行流畅、响应迅速,并为在本地环境中安全、大规模运行的下一代智能体 AI 做好准备。

了解内存容量如何影响移动和客户端生态系统中的真实 AI 性能——以及将工作负载保留在本地处理至关重要的原因。在此处了解更多详情

资深产品营销经理

Alejandro Breton Garcia

Alejandro Breton Garcia 现任美光科技资深产品营销经理,负责支持移动与客户端业务部门。他致力于面向新一代客户端和移动平台,为美光的内存产品组合制定价值主张与市场推广策略,使美光的内存解决方案与不断演进的计算架构及市场需求保持同步。

Alejandro 曾就职于多家知名内存公司以及 PC 技术公司,拥有深厚的技术造诣和丰富的跨职能领导经验,能够将复杂的技术转化为清晰的客户价值与商业价值。他拥有墨西哥国立理工学院学士学位,以及墨西哥山谷大学工商管理硕士学位。

Related blogs