IT 可持续发展智囊团:计算 IT 设备容量——充满挑战的前进之路

数据中心的能源消耗和运营效率受到严格审查。 意识到需要控制数据中心的增长,立法者和监管者已开始努力要求运营商报告设施级信息和关键性能指标,并设定最低设施性能阈值。

他们的最终目标是要求运营商报告指示性性能和效率指标,包括电力使用效率 (PUE) 和每单位能耗指标交付的工作量。

欧盟首先采取了行动。 这 能源效率指令 (EED) 授权法规(最终确定但未发布)要求已安装 IT 设备电力需求超过 500 千瓦的数据中心向成员国和欧洲数据中心数据库报告 30 多个位置和运行参数。

最终授权法规扩展了 EED 报告要求,并建立了已安装服务器工作容量(SERT® 活动状态性能或 SERT CPU性能)和已安装的存储容量(PB)。

数据中心运营商在报告服务器和存储容量指标方面面临着重大挑战。 为了满足这些要求或计算数据中心设施的每个能源指标的工作量,运营商需要维护包含关键组件数据和设备位置的设备清单,并建立一个捕获和计算数据中心服务器工作容量的流程。 业界需要一种标准化的方法来报告服务器工作容量。

设备库存

计算或估计 IT 设备的工作能力需要了解设备位置和组件规格。 不幸的是,一项针对 IT 运营商的正常运行时间调查表明,只有三分之一的 IT 运营商拥有能够计算数据中心设备容量的详细设备清单(表 1)。

计算数据中心设施的总服务器工作容量或存储容量需要操作员了解每个设施中设备的数量和类型。 调查结果表明,只有 30% 的运营商可以从他们的库存中进行匹配。

为了计算服务器的总工作容量,IT 操作员需要了解每台服务器中安装的 CPU 的数量、部件号和核心数。 工作容量值预计通过 CPU 部件号或核心数来分配。 总工作能力将根据已安装的服务器基础设施的工作能力值的聚合来计算或估计。 调查显示,目前只有 27% 的运营商收集 CPU 部件号和核心数量。

为了计算存储容量,操作员需要知道存储设备的数量以及每台存储设备的容量。 53% 的运营商表示他们收集了这些数据。

数据中心运营商必须采取三个步骤来更新和改进其设备库存和管理流程,以计算数据中心的工作容量。

  • 更新设备库存系统以包含计算工作能力所需的所有组件信息。 除了服务器和存储产品所需的值外,还应收集网络设备的带宽和数据传输速率。
  • 更新设备采购规范和流程,要求报告和收集设备组件数据。 这将需要与采购组织合作并创建收集库存信息的电子流程。
  • 对已安装的 IT 设备进行调查,以获得现有基础设施的完整清单。 识别设备并捕获组件信息的资产发现软件提供了更新当前库存的最佳方法。 它还可以用来代替采购流程,以在安装新设备时更新库存。 另一种资源密集型选择是进行手动调查。

建立有效的库存系统需要时间并且需要组织间的协作。 缺乏系统的 IT 运营商对他们创建或升级到可用系统的能力持乐观态度:68%(占受访者总数的 47%)表示他们可以在一年内实施系统。

服务器工作能力

授权法规将服务器工作容量定义为欧盟委员会法规 – 2019/424(服务器和存储产品的生态设计要求)中指定的服务器效率评级工具 (SERT®) 活动状态性能分数。 活动状态性能是服务器性能评估公司 (SPECSM)套房。 它具有相对于参考服务器的每秒事务单位。

大多数数据中心行业都支持使用 SERT 活动状态性能评分作为代表性服务器工作容量值。 由于需要通过 SERT 测量来证明符合欧盟、美国和日本的服务器能效要求,因此服务器制造商正在为选定的配置生成 SERT 测量结果,以用于法规遵从性和内部研究目的。

Green Grid (TGG) 与制造商合作,收集了 600 多种服务器配置(包含 100 多个 CPU 部件号)的 SERT 测量数据集。 使用该数据集,TGG 执行了 一个分析 显示活动状态性能得分取决于 CPU 部件号,与服务器配置无关。

对代表三代 AMD 和 Intel CPU 的 15 个 CPU 部件号的研究发现,13 个 CPU 部件号的平均活动状态性能值的标准差在 3% 到 20% 之间,其中两个部件号的标准差在 30% 左右。

总体而言,CPU 活动状态性能值为计算基于标准 CPU 的服务器的数据中心总工作容量的代表性估计提供了可接受的基础,从而可以比较逐年变化。

鉴于 EED 授权法规要求开始 2024 年报告年的有限工作能力报告,业界必须建立一个或多个数据库,其中包含 CPU 部件号的活动状态性能值。 数据库可以由 TGG 等行业组织或设备制造商创建。 TGG 工作组正在进行一个项目,计划在 2024 年下半年发布数据库。

对于包含 GPU(基于 GPU 的服务器)的高性能计算、人工智能和机器学习应用程序的服务器,目前无法提供工作容量数据。 这些服务器仅占当前安装的服务器基础设施的一小部分,但它们在数据中心中的存在预计未来会增加。 据报道,SPECPower® 委员会正在研究 SERT 测试的扩展,该测试将测量基于 GPU 的服务器的性能和功耗值,并为这些服务器提供工作能力。

存储设备容量

存储产品的工作容量是产品的原始存储容量(以 TB 为单位),该值可以从产品制造商处轻松获得。 数据中心存储容量的价值是所有已安装存储产品的原始存储容量的总和。 购买设备时,运营商应收集这些数据并将其记录在设备库存中。

网络设备带宽和数据传输容量可以类似的方式计算。

总之,给定完整的服务器设备库存和 CPU 平均活动状态性能值的数据集,数据中心运营商将能够通过将给定部件数量的 CPU 数量乘以来计算基于 CPU 的服务器的总数据中心工作容量活动状态性能值并对特定数据中心中所有服务器的这些值进行求和。

虽然这是一个简单的总结,但单个数据中心运营商和数据中心行业需要大量工作来构建完成监管报告工作能力计算所需的数据集。

2024-04-30 08:04:00
1714410916

Leave a Reply

Your email address will not be published. Required fields are marked *

近期新闻​

编辑精选​