人们对技术更替耳熟能详,就像旧火把换成新火把一样。举例来说,蒸汽机被内燃机取代,笨重的显像管显示器逐渐退出历史舞台,被时尚的液晶显示屏(LCD)取代。我最关心的一件事是,笔记本电脑中的传统机械硬盘(HDD)几乎完全被固态硬盘(SSD)所取代了。
我从事闪存和基于闪存的 SSD 架构和开发超过 30 年,非常熟悉存储技术的变化。我见证了 SSD 的关键转变——从 NOR 到 NAND 的转变、从每单元单位(SLC)到每单元多位(MLC、TLC、PLC 等)的转变、从 SATA 到 PCIe/NVMe 的转变,以及从 2.5 英寸 HDD 外形尺寸到专用 SSD 外形尺寸(如 M.2 和 EDSFF)的转变。每一次转变都对整个行业产生了重大影响,并推动我们向前发展。
一个不断出现的突出问题是:SSD 何时会比 HDD 更具成本效益并完全取代它们?根据 IDC1 的数据,2023 年,与经过容量优化的 HDD(主要是 20 TB 3.5 英寸的硬盘)相比,输送到数据中心的 PB 量级中约有 13% 是闪存 SSD(主要是 TLC)。由于 SSD 每 TB 美元价格以约 17% 的复合年增长率下降,而经过容量优化的 HDD 以 8.5% 的复合年增长率下降,可以预测今后 10-15 年内理论上会出现交叉。
在这篇博文中,我将探讨哪些问题更适合用于对数据存储的未来发展做出预测。我以最近一篇 Currie Munce 的美光博客2 为基础,讨论了单个超大规模服务器从严格基于 HDD 的温层文件系统过渡的经历,AI 对它们产生的影响以及包括 SSD 作为分层缓存层的解决方案。
Meta 温层过渡到由 AI 驱动的复合 SSD/HDD 解决方案
2021 年,Meta 在 Usenix 文件和存储技术大会3上展示了 Tectonic 文件系统。该创新系统将低延迟、小尺寸 blob 存储与快速调配 HDD(优先考虑 IOPS)和数据仓库相结合,可以提供优先考虑密度的 HDD 配置。Tectonic 是一个统一的 EB 级系统,使用数千个存储节点构建,每个存储架包含 72 个 3.5 英寸 HDD。存储节点基于 3.5 英寸、经过容量优化的 HDD。
一切都很顺利,直到 AI 的存储需求显著加大,结果表明,在大约一年的时间内,它们的在线提取带宽增加了四倍!这超出了完全采用 HDD 解决方案的峰值 I/O 需求。
图 1:由于 AI 的爆炸式增长,Meta 的带宽需求在 4 个季度内增长了 4 倍
如果继续使用只有 HDD 的温层,则需要为 I/O 过度调配 HDD,从而导致专用存储容量过剩,成本和功耗过高。他们对完全用 SSD 替换温层,还是采用 HDD 和 SSD 的复合解决方案进行了权衡。下表由 Meta 发布,阐明了面临的挑战:仅使用 HDD 会导致严重的过度调配,在当前密度下仅使用 SSD 进行替换存在困难,而复合 HDD 和闪存存储解决方案则能达到理想的平衡。
表 1:假设存储和 IO 需求分别为 100 PB 和 10 TB/秒时的 HDD、闪存和理想复合集群的存储功率要求。Meta 展示了仅满足存储需求、仅满足带宽需求以及同时满足两者所需的能力,并将结果标准化为仅使用 HDD 存储时的数据。4
构建合适的存储缓存
修改后的温层解决方案被命名为 Tectonic-Shift。它包含了对应用程序透明的 TLC 缓存,支持已处于温层的 HDD。在 2023 年 ACM4 上发表的论文中,有一个很精彩的讨论,是关于作者如何在详细分析 AI 跟踪及其独特属性之后选择他们的缓存策略,并合理权衡插入和逐出策略,在温层缓存中权衡 SSD 的性能与功耗、成本和耐用性。
考虑到 AI 工作负载的激增,在 Meta 基于 HDD 的 Tectonic-Shift 系统中插入 SSD 缓存层可以分担增加的工作负载。
图 2:将 Shift 与仅允许 IO 密集型表的专家手动调整策略进行比较的生产结果。
AI 之外的复合 SSD+HDD。未来预期。
关键的权衡不仅在于实现正确的存储密度,还在于确保与该密度相匹配的适当 I/O 性能。正如之前 Currie Munce 的博客中所讨论的,一个值得考虑的有用指标是性能除以密度。我们举一个例子来说明这一点:在“Facebook 的 Tectonic 文件系统:百亿亿次级的效率”论文中,作者提出了一个复合集群,需要 100 PB,峰值速率为 10 TB/秒。这意味着,峰值性能下的存储吞吐量密度约为每秒每 TB 100 兆字节(MB/秒/TB)。然而,不同工作负载的平均要求有所不同。对于 AI 工作负载,建议的存储密度平均值约为 20 MB/秒/TB,而对象存储通常以大约 5 MB/秒/TB 的速度运行。另一方面,Blob 存储在 2 MB/秒/TB2 左右徘徊
随着我们探索不断发展的数据存储环境,平衡性能和密度变得至关重要。
美光 6500 ION 专为温层设计
尽管 HDD 历史上具有令人印象深刻的密度复合年增长率(CAGR),但其性能却几乎没有变化。因此,每秒每太字节的兆字节数(MB/秒/TB)随着每一代的更新反而有所降低。美光认为,通过进一步的 SSD 分层而不是 HDD 过度调配,可以解决这个问题。SSD 将消除温层中的 HDD。HDD 将继续为较凉/冷层提供服务。
因此,适合的问题是:
“SSD 何时才能完全消除(而不是取代)数据中心内的 HDD?”
答案是:
“已经消除了!”
这正是美光开发和推出美光 6500 ION SSD 的原因。这款屡获殊荣的 SSD 通过高吞吐量密度、高能效和低延迟优化了分层存储解决方案中的 TCO。
在可预见的未来,这将成为 HDD 的补充层,而不是 HDD 的替代品。
参考
1 IDC,2023 年至 2027 年全球固态硬盘预测更新,2023 年 12 月 | 文档编号:US50021623;IDC,2023 年至 2027 年全球机械硬盘预测更新,2023 年 12 月 | 文档编号:US51423423
2 SSD 和 HDD——“是敌是友”
3 Tectonic 文件系统:整合存储基础设施——Meta 工程部门(fb.com)
4 Tectonic-Shift:用于大规模机器学习训练的复合存储构造 | USENIX