Nvidia 征服最新 AI 测试

多年来,Nvidia 一直在许多机器学习基准测试中占据主导地位,如今又获得了两项殊荣。

MLPerf人工智能基准测试套件有时被称为“机器学习的奥运会”,它发布了一套新的训练测试,以帮助在竞争计算机系统之间进行更多、更好的同类比较。MLPerf 的新测试之一涉及微调 大型语言模型,即采用现有的经过训练的模型,并使用专业知识对其进行进一步训练,以使其适合特定用途。另一种是 图神经网络,一些文献数据库、金融系统中的欺诈检测和社交网络背后的一种机器学习。

即使有计算机的加入和参与, 谷歌的英特尔 人工智能加速器、由 Nvidia 的 Hopper 架构 再次占据主导地位。一个包含 11,616 个 Nvidia H100 GPU 的系统(迄今为止最大的集合)在九项基准测试中均名列前茅,并在其中五项(包括两项新基准测试)中创下纪录。

“如果只是用硬件来解决问题,那并不意味着一定会取得进步。” —Nvidia 的 Dave Salvator

11,616-H100 系统是“我们迄今完成的最大系统”, 戴夫·萨尔瓦托,Nvidia 加速计算产品总监。它突破了 GPT-3 训练试验 不到 3.5 分钟。相比之下,512-GPU 系统大约需要 51 分钟。(请注意 GPT-3 这项任务并不是一次完整的训练,训练可能需要数周时间,花费数百万美元。相反,计算机会在完成之前约定的时间点对具有代表性的数据进行训练。

与 Nvidia 最大的竞争对手相比 GPT-3 去年,一台 3,584 H100 计算机,3.5 分钟的结果代表了 3.2 倍的改进。你可能只是从这些系统的大小差异中就能预料到这一点,但在人工智能计算中情况并非总是如此,Salvator 解释道。“如果你只是用硬件来解决问题,那并不是一定会有所改进,”他说。

Salvator 表示:“我们基本上实现了线性扩展。他的意思是,两倍的 GPU 数量可使训练时间减半。”[That] “代表了我们的工程团队取得的伟大成就,”他补充道。

竞争对手也越来越接近线性扩展。本轮 英特尔 部署了一个使用 1,024 个 GPU 的系统,在 67 分钟内完成了 GPT-3 任务,而六个月前,一台只有其四分之一大小的计算机花了 224 分钟。谷歌最大的 GPT-3 项目使用了 12 倍数量的 GPU TPU v5p 加速器作为其最小的入口,并且执行任务的速度是其九倍。

Salvator 表示,线性扩展对于即将建成的容纳 10 万个或更多 GPU 的“AI 工厂”来说尤为重要。他表示,预计今年将有一个这样的数据中心上线,另一个将使用 Nvidia 的下一代架构, 布莱克威尔,预计于2025年启动。

Nvidia 的连胜势头仍在继续

尽管 Nvidia 使用了与去年训练结果相同的架构 Hopper,但它仍在继续提高训练时间。Salvator 说,这全归功于软件的改进。“通常情况下,我们会得到 2-2.5 倍的 [boost] “在新的架构发布后,软件也会随之发生变化,”他说道。

对于 GPT-3 训练,Nvidia 的成绩比 2023 年 6 月 MLPerf 基准Salvator 表示,这一提升背后有几项软件改进。例如,Nvidia 工程师通过减少 8 位和 16 位数字之间不必要的转换,以及更好地确定神经网络的哪些层可以使用较低精度的数字格式,调整了 Hopper 对精度较低的 8 位浮点运算的使用。他们还找到了一种更智能的方法来调整每个芯片计算引擎的功率预算,并加快了 GPU 之间的通信速度,Salvator 将其比作“在面包还在烤面包机里时就给面包涂黄油”。

此外,该公司还实施了一项名为 闪光关注。闪存注意力机制由 Samba Nova 创始人 Chris Re 在斯坦福大学实验室发明,是一种通过最小化内存写入来加速 transformer 网络的算法。当它首次 出现 在 MLPerf 基准测试中,闪存注意力机制可将训练时间缩短 10%。(英特尔也使用了闪存注意力机制,但不是用于 GPT-3。而是将该算法用于新基准测试之一,即微调。)

通过使用其他软件和网络技巧,Nvidia 在文本到图像测试 Stable Diffusion 中实现了比 2023 年 11 月提交的速度提高 80% 的速度。

新的基准

MLPerf 增加了新的基准并升级了旧的基准,以跟上 AI 行业的最新动态。今年增加了微调和图形神经网络。

微调采用已经训练好的 LLM,并使其专门用于特定领域。例如,Nvidia 采用了经过训练的 430 亿参数模型,并在 GPU 制造商的设计文件和文档上对其进行了训练,以创建 ChipNeMo,一款旨在提高芯片设计师生产力的人工智能当时,该公司的首席技术官比尔·戴利(Bill Dally)表示,培养一个LLM就像是给它进行文科教育,而精细化调教就像是送它去读研究生。

MLPerf 基准测试采用预先训练的 Llama-2-70B 模型,并要求系统使用 政府文件数据集 目的是生成更准确的文档摘要。

有几种方法可以进行微调。MLPerf 选择了一种称为低秩自适应 (LoRA) 的方法。据该组织称,该方法最终只训练 LLM 的一小部分参数,与其他方法相比,硬件负担降低了 3 倍,内存和存储的使用也减少了。

另一项新基准涉及 图神经网络(GNN)。这些适用于可以通过一组非常大的互连节点表示的问题,例如社交网络或推荐系统。与其他 AI 任务相比,GNN 需要计算机中节点之间的大量通信。

该基准测试在一个显示学术作者、论文和机构关系的数据库上训练了一个 GNN——一个包含 5.47 亿个节点和 58 亿条边的图。然后训练神经网络来预测图中每个节点的正确标签。

未来的战斗

2025 年的训练轮次可能会出现来自 AMD、英特尔和 Nvidia。 AMD 的 MI300 系列 大约六个月前推出,MI325x 的内存升级版 计划于 2024 年底,下一代 MI350 预计将于 2025 年推出。 英特尔称其 Gaudi 3将于今年晚些时候向计算机制造商全面推出,并将出现在 MLPerf 即将推出的推理基准测试中。英特尔高管表示,新芯片有能力在训练 LLM 方面击败 H100。但胜利可能是短暂的,因为 Nvidia 推出了一种新的架构, 布莱克威尔,计划于今年年底推出。

来自您的网站文章

网络上的相关文章

2024-06-12 15:00:05
1718275469

Leave a Reply

Your email address will not be published. Required fields are marked *

近期新闻​

编辑精选​