推理 = IOPS：为什么 AI 的下一前沿领域取决于存储技术

“推理”曾只是训练之后默默跟进的后续环节，甚至常常被当作事后补充。但一切似乎在一夜之间改变。如今，推理已成为 AI 基础设施的重头戏，而存储也正逐渐成为备受关注的焦点。

每当您向聊天机器人提问、生成图像或运行 Copilot 协作的任务时，推理都在背后发挥着作用。这些操作不像训练过程那样可预测、可重复。推理按需实时进行，并且完全由用户行为驱动。其过程也因此变得更加复杂，更难优化。

想象一下在交通高峰期穿梭于繁忙都市。每位司机都有各自的目的地，交通状况也瞬息万变。您需要根据当前路况实时做出决策，调整路线以避开拥堵，高效抵达目的地。这种不可预测性和对快速调整的需求，恰好反映了 AI 推理的随机性。您的每一次交互都会触发一组独特的进程与计算，这要求系统具备出色的性能和响应能力。

推理 = IOPS

现实情况是：与训练工作负载不同，推理工作负载并非直线运行。它们会循环往复、不断优化和重新处理。这意味着每次交互都会触发大量的读取、写入和查找操作。因此每秒读写操作次数 (IOPS) 会快速累积。推理不仅需要高容量，还需要高性能支撑。虽然算力总是占据头条，但实际上是存储系统在持续“喂养这头巨兽”。

随着模型规模扩大（以近实时方式服务于像您这样的数十亿用户），基础设施承受的压力呈指数级增长。AI 创新必须以光速推进，但其总体的速度最终取决于速度最慢的环节。

Meta 首席 AI 科学家 Yann LeCun 道破关键：“AI 基础设施的成本大部分都来自推理：为数十亿人提供 AI 助手服务。”

这种规模直接转化为对速度更快、响应更快的存储系统的需求：不仅要具备高容量，还要能够实现高 IOPS。推理应用所驱动的并发 I/O 吞吐量可达传统 CPU 计算应用的数百甚至数千倍。

推理 = IOPS

美光正在实际部署中见证这一转变。运行大语言模型 (LLM) 和其他推理密集型工作负载的客户，正在寻求在不可预测的负载下降低尾延迟、提升响应速度的方法。

这正是美光 9550 等硬盘以及新一代 PCIe 6.0 NVMe SSD 大显身手的领域。它们并非通用存储设备，而是专为 AI 推理等数据密集型、低延迟环境而量身打造。

推理 = IOPS

NVIDIA 的黄仁勋最近指出：“由于代理型 AI 和推理能力的发展，如今我们的计算量需求已达到去年此时预测值的 100 倍。”

不仅仅是模型要变得更智能，整个技术栈的基础设施都需要同步进化。而这一维护需求同样涵盖存储，尤其在那些需要跨越多 GPU 集群、加速器及多级内存进行 AI 推理的系统中。

随着用例的扩展（聊天机器人、搜索、Copilot 以及边缘嵌入式 AI 等），整个 I/O 管道正面临重新评估。如果存储无法跟上速度，那么即使计算构造再快又有何意义？

推理 = IOPS

推理的时代已然来临，推动了对 IOPS 的需求——而美光正在引领这一时代潮流。

企业副总裁兼存储业务部门总经理

Jeremy Werner

Jeremy 是一位拥有 20 余年经验的优秀存储技术领导者。他在美光的职责范围非常广泛，包括全球服务器、存储、超大规模和客户端市场的产品规划、营销和客户支持。此前，他曾在 KIOXIA America 公司担任过 SSD 业务总经理，还在初创公司 MetaRAM、Tidal Systems 和 SandForce 担任了 10 年的销售和营销职务。Jeremy 拥有康奈尔大学电子工程理学学士学位，拥有或正在申请的专利超过 25 项。

产品概览

搜索、筛选和下载美光数据表

市场与行业概览

AI 数据中心

合作伙伴概览

了解并加入美光技术赋能计划 (TEP)

销售和支持概览

联系美光销售支持团队

美光概览

投资者关系概览

访问美光投资者关系专区

最近搜索

推理 = IOPS：为什么 AI 的下一前沿领域取决于存储技术

推理 = IOPS

推理 = IOPS

推理 = IOPS

推理 = IOPS

Jeremy Werner