Perspective

28 6月, 2025

企业数据中心

当扩展需要性能时全球云服务提供商如何通过硬盘满足这两种需求

Perspective

两只手握住一部显示文本、竖起大拇指、心形等图标的智能手机,展示了各种数字活动 两只手握住一部显示文本、竖起大拇指、心形等图标的智能手机,展示了各种数字活动 两只手握住一部显示文本、竖起大拇指、心形等图标的智能手机,展示了各种数字活动

随着多租户和高性能要求重塑数据基础架构其中一项最重要的转变不仅发生在训练集群中还发生在实时响应数十亿用户交互的系统中。

在全球最大的互联网巨头之一1基础设施架构师最近着手重新构想与用户参与相关的关键工作负荷负载支持社交介质评论活动的缓存基础设施即支持快速访问频繁请求内容的临时数据层。激增的流量、高并发和繁重的读/写入需求带来了巨大的风险,而且大规模降低成本和能源的需求也很重要。该团队确定了一个战略性但非常规的解决方案:基于硬盘的缓存层,在低容量 Seagate企业硬盘上构建。

有些人认为这一层需要闪存,但工作负荷分析显示,硬盘满足性能需求,同时提供显着的成本和效率优势,尤其是对于推理和数据部署工作负载,这些工作负载通常更多地受到成本、功耗和规模的限制。与原始延迟相比。

此架构说明了基础架构决策基于实际工作负荷行为时的可能性以及硬盘在战略性使用时如何能够在全球范围内实现高性能、可扩展和经济高效的运营。

了解数据工作负荷:短突发高并发

重点工作负荷的目标是在病毒式内容互动期间实现对用户评论数据的快速、可靠访问—这一挑战大规模后会迅速变得复杂。但需求的数量和多变性又使得该计划变得非同寻常。

当一段内容走红时,参与度会立即飙升。数分钟内成千上万的用户会涌入同一个话题 - 点赞、回复、刷新和转发。系统必须支持快速的小对象读写、急剧达到峰值然后同样快速下降。虽然性能很重要但只有当系统瓶颈允许利用性能时它才提供价值。

该平台的架构师需要支持以下功能

  • 短时间内极高的并发访问量。
  • 与用户活动相关的大量写入流量。
  • 快速响应缓存可提供用户体验—但没有常亮、低延迟的闪存。

传统的热/冷分层对于这种动态模式无效。虽然闪存可以满足性能需求但其成本、磨损和能耗状况使其在架构的这一层不可持续。

吞吐量与延迟重新思考数据缓存以提高云性能

人们普遍认为缓存层必须基于闪存以满足性能需求尤其是对于面向用户的系统。但在这种情况下,详细的工作负荷分析显示,吞吐量(每秒读取或写入数据的速率)和并发(处理许多同步请求的能力)是限制因素,而不是微秒级延迟。硬盘在这些方面都非常出色,在旨在最大化这些优势的系统级架构中,即通过并行、缓存策略和智能分层,在相同的工作负荷下,硬盘性能优于基于闪存的设置。

通过利用这些优势的组合云提供商能够

  • 提供高顺序和并发吞吐量。
  • 在短暂的密集峰值期间处理大量数据。
  • 以更低的成本和每 TB 功耗运行 - 随着数据中心功耗和散热预算变得越来越有限这是一个有意义的考虑因素。

Seagate 对 IDC、TRENDFOCUS 和 Forward Insights 的研究分析表明,在此类部署中,企业机械硬盘的每 TB 购置成本显着降低,目前比 SSD 低 7 倍以上。这一差异可以显着影响架构选择,尤其是在考虑缓存效率和耐用性时。

硬盘缓存:适用于可扩展、高效数据访问的解决方案

最终架构部署了Seagate低容量企业硬盘作为持久缓存层并将其定位在主要应用层和基于大容量硬盘的云层之间。该配置是使用团队已在其他工作负载中使用的机箱构建的,可实现高效的系统重用。

工作方式如下:

  • 在高峰活动期间评论数据会直接写入基于硬盘的缓存层。
  • 这一基于硬盘的数据层提供了在突发期间全球范围内快速、可重复访问所需的高吞吐量、高并发性能。
  • 一旦需求逐渐减少缓存的数据要么被刷新要么被迁移到更深的存储层建立在更高容量的硬盘上例如24TB 或 30TB。

缓存层中的硬盘通常优先考虑其盘片外径以获得可用缓存空间,优化写入行为并为用例最大化有效性能。

在云存储基础架构中平衡成本、功耗和性能

下图说明在进入评论处理系统之前评论如何进入缓存模块在缓存层和云存储之间移动。

此架构图说明了基于硬盘的缓存、深度存储和应用服务如何协同工作以高效且经济地处理病毒性数据突发。

该部署对整体基础架构成本和能源效率进行了有意义的改进同时通过专为持续吞吐量、写入耐用性、压力下数据可用性和舰队规模部署而设计的硬盘维持工作负荷的高性能需求。

  • 与基于闪存的替代方案相比,使用更低容量的企业硬盘以更低的每 TB 购置成本交付所需的性能。
  • 由于硬盘针对持续写入突发而不是闲置IOPS 进行了优化因此每单位吞吐量的功耗有所下降。一般来说,系统级比较还显示,与 QLC 闪存相比,机械硬盘可将每 TB 功耗降低多达 70%。
  • 该团队能够重用其现有基础架构,从而最大限度地减少新硬件投资并加快部署时间表。
  • 重要的是,基于硬盘的缓存层将继续满足或超过点击率预期,支持在最具病毒性的流量高峰期实现无缝评论互动。

与原始延迟相比,大多数推理和数据分级工作负载更多地受到成本、功耗和规模的限制,因此机械硬盘非常适合架构层中的架构。

扩展云缓存从试点成功到全球平台标准

截至发稿时客户正在积极地跨主要地区部署此平台架构并持续评估更广泛的部署。早期指标非常出色缓存性能指标保持稳定用户体验保持响应并且总拥有成本 (TCO) 得到改善。

如果试点结果继续保持该平台可能会显着扩展此模型 - 潜在的年度部署卷达到六位数的硬盘数量反映了每年超过 6EB 的需求以及对硬盘以舰队规模提供性能和效率的信心。

这不仅仅是一次性优化,而是一种新兴模式,旨在更好地共享图像、微博、视频和其他内容,其中最终用户并发性和相关性硬盘了基础架构需求,并提高了平台的盈利能力。

构建可扩展、经济高效的云缓存架构的关键经验教训

这一设计的成功不在于任何单一突破,而是基于三个核心原则,这些原则将引起其他 AI 平台构建者的共鸣:

  • 针对工作负荷设计—不是假设—因为并非每个高性能层都需要闪存。
  • 性能的关键维度像吞吐量、并发性、写入可用性、摄取速度和系统利用率 - 通常比原始延迟更相关。
  • 可优化存储层甚至重复使用以更高效地满足现代需求。

在这里,机械硬盘并没有“胜出”闪存,它们只是更胜一筹。这就是在真实环境中协调性能、成本和运营效率的情况。在企业和云基础架构中,它们继续为吞吐量、效率和规模最为重要的绝大多数数据工作负载提供服务。

最后的想法构建反映真实工作负载的云基础设施

为了满足性能需求,现代工作负载需要可扩展的计算和存储,尤其是在模型成功取决于直接、持续的最终用户相关性的情况下。

随着 AI 和其他现代工作负载继续影响各行业的基础架构设计,问题不在于使用硬盘还是闪存。而是介绍如何构建能够反映真实工作负荷行为、真实限制以及真实优化机会的系统。

这家领先的全球云服务提供商证明了硬盘不仅具有相关性,而且是现代架构演进到扩展方式的核心,可确保即使在峰值需求下也能确保快速响应数据访问和可用性。

脚注

根据保密协议保密处理。

相关话题:

Cloud Data Center