最新的 AI 训练基准测试表明 Nvidia 没有竞争对手

英伟达首席执行官黄仁勋在周日的台北国际电脑展主题演讲中透露了公司下一代芯片架构“Rubin”,令观众大吃一惊。

英伟达

芯片巨头 Nvidia 长期以来一直主导着所谓的神经网络“训练”,即对网络的神经“权重”或“参数”进行设计和重新设计,直到达到最佳性能的计算密集型任务。该公司一直面临来自各种芯片制造商的竞争,包括英特尔和 AMD 等巨头,以及 Graphcore 等初创公司。

然而,最新的速度基准测试表明,如果竞争意味着各方对 Nvidia 所能做到的最佳水平进行有意义的挑战,那么 Nvidia 实际上没有竞争对手。

MLCommons 是一个行业联盟,每年都会汇编多份有关 AI 芯片性能的基准报告。 周三宣布 数字显示了不同芯片在训练神经网络执行各种任务时的表现,包括训练 Meta 的 Llama 大型语言模型进行预测,以及训练稳定扩散图像模型来生成图片。

Nvidia 横扫了基准测试,在全部 9 项比赛中均获得最高分和第二名。而 AMD、英特尔和谷歌云计算部门等竞争对手的表现甚至都相差甚远。

还: Nvidia 横扫 AI 基准测试,但英特尔带来了有意义的竞争

这是 Nvidia 连续第三次在最高分数的争夺中无人能敌,但是即使是竞争对手在前几轮比赛中取得的令人鼓舞的成绩,这一次也没有实现。

nvidia-mlperf-training-4-0-结果-2024 年 6 月

MLCommons

Training 4.0 测试共有 9 个独立任务,记录了通过多次实验优化神经网络设置来调整神经网络的时间。这是神经网络性能的一半,另一半是所谓的推理,即完成的神经网络在接收新数据时进行预测。推理在 MLCommons 的单独版本中介绍。

到目前为止,MLPerf 的大多数任务都是经过多年开发的成熟的神经网络,例如 3-D U-Net,这是一个用于研究实体肿瘤检测等体积数据的程序,由谷歌的 DeepMind 于 2016 年推出。

然而,MLCommons 会定期更新基准,添加新任务以反映新出现的工作负载。这轮训练是提交者首次在时间上竞争“微调”Meta 的 Llama 语言模型版本,其中 AI 模型在初始训练后使用更集中的训练数据集进行重新训练。还添加了一项“图形神经网络”任务,训练神经网络遍历一组相关数据点,这对于药物发现等事情很有用。

mlperf-训练-4-0-任务-2024 年 6 月

MLCommons

还: Nvidia 透露 Rubin 的 GPU 和 CPU 将于 2026 年接替 Blackwell

在对 Meta 的 Llama 2 70B 进行微调的测试中,Nvidia 仅用了一分半钟,使用了 1,024 块“H100”GPU 芯片,这是目前为整个行业 AI 工作负载提供支持的主流部件。Nvidia 芯片获得了前 23 名的成绩,而英特尔的“Guadi”AI 加速器则排在第 24 位。

即使根据芯片数量进行调整,重大挑战也未能实现。例如,在八芯片配置中,就企业而言,这比 1,024 芯片系统更常见——去年夏天英特尔在这种配置中取得了令人鼓舞的成果——英特尔这次最好的——也是唯一——提交的是 Llama 70B 任务。

英特尔的系统在两颗英特尔 XEON CPU 的帮助下,花了 78 分钟对 Llama 进行微调。而由开源供应商 Red Hat 组装的 8 路 Nvidia H100 系统在两颗 Advanced Micro Devices EPYC 处理器的帮助下,只花了不到一半的时间,仅 31 分钟多一点。

在对 OpenAI 的 GPT-3 进行聊天等功能的训练测试中,英特尔仅使用了 1,024 块 Gaudi 芯片,仅为 Nvidia 所用芯片数量的十分之一(11,616 块 H100)。但英特尔的得分为 67 分钟,训练时间是 Nvidia 领先得分 3.4 分钟的 20 倍以上。当然,一些企业可能会发现,考虑到使用更少的芯片可以节省成本,并且考虑到训练 AI 模型的大部分工作可能不是严格的挂钟训练时间,而是数据准备所需的时间,一小时的训练时间与三分钟的训练时间的差异可以忽略不计。

还: 英特尔展示最新“Gaudi”人工智能芯片,面向企业

其他供应商也同样难以赶上 Nvidia。在图像识别这项备受推崇的测试中,AMD 使用名为 Resnet 的神经网络,使用六块“RADEON RX 7900 XTX”加速器芯片训练网络耗时 167 分钟,而六路 Nvidia“GeForce RTX 4090”系统仅耗时 122 分钟。

谷歌提交的四份“TPU”第五版芯片均用于 GPT-3 测试,其得分远低于 Nvidia,训练时间在 12 到 114 分钟之间,而 Nvidia 为 3.4 分钟。此前的竞争对手如 Graphcore 已退出竞争。

在评比结果中,Nvidia 作为系统供应商的主导地位也十分引人注目。尽管参与评比的系统供应商众多,包括戴尔、富士通、惠普企业、瞻博网络和联想,但 Nvidia 的所有获奖产品都是由 Nvidia 自己设计的系统制造的。Nvidia 获得的第二名产品中,有三款是由该公司在系统设计方面的密切合作伙伴 Supermicro 制造的。

未来一个有趣的发展可能是使用 Nvidia 的“Grace”CPU 的系统。无论是来自 Nvidia、英特尔、AMD 还是谷歌,提交的所有芯片结果都继续只使用两种 x86 CPU 中的一种,即英特尔的 XEON 或 AMD 的 EPYC。由于 Nvidia 的目标是使用 Grace 销售更完整的计算系统,因此 CPU 与 Nvidia 的 GPU 结合似乎只是时间问题。这可能会对 Nvidia 已经相当大的领先地位产生有趣的影响。

这次基准测试套件的一个有趣的创新是加入了对训练神经网络所消耗能量的测量。这家新加坡公司 公司技术 展示了其云平台 Sustainable Metal Cloud 的成果,运行数十台甚至数百台 Nvidia H100,并提供了以 Jules 为单位测量的总“训练能量”。

例如,为了运行 Llama 2 70B 微调,Firmus 的云计算系统使用 512 个 H100 芯片,需要 4500 万到 4600 万个 Jules 来训练网络。这次训练耗时两分钟,比 Nvidia 自己的最佳时间稍长。它需要的能量是 8 芯片系统的四倍,而 8 芯片系统的训练时间是 8 芯片系统的十五倍,即 29 分钟,这表明大型训练系统消耗的能量显著增加。

近年来,人工智能训练成本一直是热门话题,无论是从公司的成本负担(以美元计算)还是环境负担来看都是如此。MLPerf 结果的其他提交者是否会加入 Firmus 的行列,在下一轮基准测试中提供能源测量,还有待观察。

1718205590
2024-06-12 15:01:00
#最新的 #训练基准测试表明 #Nvidia #没有竞争对手

Leave a Reply

Your email address will not be published. Required fields are marked *

近期新闻​

编辑精选​