Invalid input. Special characters are not supported.
无论对话时间有多长或提问间隔有多久,ChatGPT 似乎总能记住您与它的所有对话并几乎实时回复,您是否好奇其中的原因?
这种能力虽然神奇,但并非魔法,它源于一种名为“键值缓存”(key-value cache) 的巧妙机制,正是它在幕后默默发挥着作用。
我的同事 Wes Vaske 最近发表了一篇精彩的文章,解释了什么是键值缓存,以及它如何实现更快、更具上下文感知能力的 AI 响应。受此启发,我对键值缓存进行了深入的研究。目的并非是为了探究键值缓存本身的工作原理(这些工作属于 Wes 等才华横溢的人!),而是了解企业为何需要键值缓存。它为何如此重要?为何营销人员需要关注它? 键值缓存作为一种幕后机制,决定了 AI 用户看到的内容和获得的结果。
随着研究的深入,我越发意识到,所有产品营销人员,乃至所有普及科技产品信息的人士,都应当了解键值缓存。不是了解其实现机制,而是了解其对企业的重要性。只有了解了键值缓存的重要性,我们才能发现硬件性能与用户体验之间的相关性、共鸣度及深层联系。
通俗解读键值缓存
按照我的理解,键值缓存可以简单概括为:它是 AI 模型的短期记忆。它可以让模型记住之前已处理过的提问内容,这样当我们重复之前的讨论或者提出新问题时,它就无需重新计算所有内容。这种能力听起来可能并不令人惊讶,但在实践中,它却具有颠覆性的意义。
在 NVIDIA GTC 2025 大会上,来自 NVIDIA 的 John Kim 在“利用 PCIe 6.0 和新系统架构提升 AI 工作负载性能”演讲中分享了一些测试数据,表明随着输入序列长度 (token) 的增加,持久性键值缓存的速度要比重新计算更快。换言之,大语言模型 (LLM) 的输入越复杂,用户便越有可能从存储在磁盘上的键值缓存中受益。
设想以下场景:某企业 AI 系统正在协助市场营销或技术支持团队。这些互动并非针对单一问题的问答,而是冗长的多轮对话,有时需要从大量文档中抽取信息。借助键值缓存,AI 能够记住之前输出过、推理过和提供过的内容,从而以更快的速度为这些多轮次深入讨论提供更完善的答案。
如果您能理解键值缓存的存在意义及其实现方式,就能更深刻地将性能、用户体验和产品价值联系起来。正是通过这些方面的努力,我们才能赢得客户的信任。
为何键值缓存对企业 AI 和云可扩展性至关重要?
当今时代,企业越发依赖生成式 AI 来提高生产力、速度和内部一致性,生成式 AI 已从“锦上添花”变成“企业标配”。生成式 AI 已成为企业的基础设施,了解这种趋势背后的原因至关重要,有助于我们将后端复杂性与前端影响联系起来。
键值缓存可带来多种优势,包括:
- 近乎实时的响应能力:企业用户希望立即获得问题答案,而不是等待 10 多秒的处理时间。
- 长上下文:AI 能够记住更多内容(无论是客户历史记录还是产品手册),不会丢失之前输入的提示,从而能够输出质量更高、更详细、更精准的答案。
- 高效利用 GPU:通过将键值缓存持久存储在存储设备中以供重复使用,我们可以利用存储空间来减少每次 LLM 查询所需的计算量,从而更高效地利用 GPU。
- 多用户扩展:对拥有众多并发用户的云服务而言,快速高效的基础设施能将用户的每条查询连接到正确的参考内容,并确保系统平稳运行。
但是,所有这些功能都需要占用大量的内存。
上下文越长,所需的缓存就越大。即使是中等规模的模型,键值缓存所用存储空间也可能迅速膨胀,达到每个会话数 GB 的水平。这便是基础设施至关重要的原因。如果您希望 AI 达到预期的性能,就需要有支持它的架构。
美光为突破性技术提供核心支撑
凭借 DRAM、高带宽内存 (HBM) 和高速大容量 SSD 存储领域的诸多创新,美光正在为下一波 AI 浪潮提供支持。这些不仅仅是纸面上的技术规格,更是支撑大规模高性能 AI 应用的坚实基础。
我们不妨做个简单计算:AI 模型的单次会话可能就需要 2GB 或更多内存作为缓存。如果有数千名用户,同时许多用户希望“从上次中断的地方继续”,这种情况下,对高速内存的需求显而易见。美光的技术旨在实现这些功能,为企业提供所需的响应能力、上下文感知能力和可扩展能力。
如果您每天都使用 AI 基础设施,当您向同事展示 AI 的优势,或者向客户推广 AI 相关产品时,可能无需深入了解其内部原理。不过,您应该了解 AI 基础架构的重要性,以及美光产品在其中的重要作用。总之,如果没有良好的基础架构,用户体验便成为无源之水。
非技术人员需要掌握的要点
那么,上述技术对于企业的重要性到底体现在哪里? 对于任何想要将 AI 转化为实际工作成果的人士而言,以下是我总结的三大要点:
- 键值缓存 = 速度。键值缓存让 AI 能够记住已处理过的内容,从而实时响应用户的提问,这种能力对于实现用户友好的交互至关重要。
- 上下文 = 价值。通过缓存来支持多轮会话和连贯交互,对于企业 AI 至关重要。上下文不仅仅是数据,更是洞察力的来源。
- 内存和存储 = 规模。模型所需的缓存越多,就越需要更大的内存来支持它。而且,缓存的性能不仅仅与 DRAM 有关,高速存储(例如 SSD)能够更快地为模型提供推理和响应所需的数据。这正是美光的优势所在,我们的产品让客户能够扩展其智能系统,让规模不再成为客户的桎梏。
非技术人员无需了解如何构建引擎,也能理解为何基础设施的性能如此重要。无论您是产品营销人员、企业高管,还是对技术抱有好奇心的读者,在了解了键值缓存等功能与客户工作成果之间的联系后,都可从中受益。当您了解了客户使用产品背后的原因后,就能更好地交付产品。
总结
Wes 的文章不仅介绍了特定的技术特性,例如,键值缓存如何帮助优化内存,以及它的隔离特性如何帮助提升安全性等。他的博客文章启发我去思考更大的场景。作为产品营销人员,我们的工作不仅仅是告诉客户产品是“什么”,更要告诉客户“为什么”,从而让客户更好地了解基础设施如何支持用户体验,以及用户体验如何推动应用的普及。
了解了键值缓存等幕后技术背后的“为什么”(即这些技术的作用及工作原理),将有助于将它们从热门话题转化为商业价值。通过这种更深层次的了解,我们能够将技术、技术对底层机制的影响,以及最终用来改善客户成果的方法联系起来,这才是我们工作的关键所在。这也是吸引我不断探索、学习和进步的原因。如果您对这项技术背后的技术细节感兴趣,敬请关注 Wes 将于下周发表的博客!
#AI #键值缓存 #产品营销 #企业 AI #美光