想拯救地球免受人工智能的侵害?使用 FPGA 并抛弃矩阵 • –

加州大学圣克鲁斯分校的研究人员声称,利用替代数学和定制硬件可以使大型语言模型的能源效率提高 50 倍。

一篇论文 题为“可扩展的无 MatMul 语言建模”的论文中,作者 Rui-Jie Zhu、Yu Zhang、Ethan Sifferman、Tyler Sheaves、Yiqiao Wang、Dustin Richmond、Peng Zhou 和 Jason Eshraghian 描述了如何通过摆脱 矩阵乘法 并添加自定义现场可编程门阵列(FPGA)。

人工智能(我们指的是具有预测性和幻觉的机器学习模型)对于维持地球宜居性非常不利,因为它消耗了太多能源, 其中大部分 来自化石燃料的使用。数据中心的运营提供人工智能服务,自 2020 年以来使微软的二氧化碳排放量增加了 29.1%,人工智能驱动的谷歌搜索每次消耗 3.0 Wh,是传统谷歌查询的十倍。

今年早些时候, 国际能源署 [PDF] 预计到 2026 年,全球数据中心的电力消耗将几乎翻一番,从 2022 年的 460TWh 上升到两年内的 800TWh 以上。对人工智能能源的渴求甚至重新激发了人们对核能的兴趣,因为为了聊天机器人、平淡的营销文案和按需图像生成而加速化石燃料的消耗,即使不是一种潜在的反人类犯罪,也具有政治风险。

加州大学圣克鲁斯分校巴斯金工程学院电气与计算机工程助理教授、该论文的主要作者 Jason Eshraghian 告诉 登记册 该研究成果可以在定制 FPGA 硬件的帮助下节省 50 倍的能源。

“我应该指出,我们的 FPGA 硬件也非常不优化,”Eshraghian 说道。“因此,还有很大的改进空间。”

该原型已经令人印象深刻。十亿参数的 LLM 可以在定制 FPGA 上运行,功耗仅为 13 瓦,而使用 GPU 则需要 700 瓦。

Eshraghian 及其合著者的工作展示了这种架构可以做什么。示例代码已发布 发布 到 GitHub。

Eshraghian 表示,“三元权重的使用用加法和减法代替了乘法,从内存使用和实际操作的能量来看,计算成本要低得多。”

他说,这与用“覆盖”方法取代 Transformer 模型的支柱“自我注意力”相结合。

“在自注意力机制中,矩阵的每个元素都会与其他每个元素相互作用,”他说,“在我们的方法中,一个元素只与另一个元素相互作用。默认情况下,计算量越少,性能越差。我们通过建立一个随时间演变的模型来弥补这一点。”

Eshraghian 解释说,基于转换器的 LLM 一次性处理所有文本。“我们的模型逐段处理文本的每一部分,因此我们的模型通过考虑时间来跟踪特定单词在更广泛上下文中的位置,”他说。

Eshraghian 承认,依赖三元数据表示确实会阻碍性能,但他和他的合著者找到了抵消这种影响的方法。

“在计算量相同的情况下,我们的性能与 Meta 的开源 LLM 相当,”他说。“但是,我们的计算是三元运算,因此成本更低(就能源/功率/延迟而言)。在内存量相同的情况下,我们的性能要好得多。”

即使没有定制的 FPGA 硬件,这种方法也很有前景。该论文声称,通过 融合内核 在三元密集层的 GPU 实现中,与 GPU 基线相比,训练速度可加速 25.6%,而内存消耗可减少 61%。

“此外,通过采用低位优化的 CUDA 内核,当模型扩展到 13B 参数时,推理速度提高了 4.57 倍,内存使用量减少了 10 倍,”该论文声称。

“这项工作超越了轻量级模型的纯软件实现,并展示了可扩展但轻量级的语言模型如何减少现实世界的计算需求和能源使用。”®

1719388280
2024-06-26 07:26:00
#想拯救地球免受人工智能的侵害使用 #FPGA #并抛弃矩阵 #Register

Leave a Reply

Your email address will not be published. Required fields are marked *

近期新闻​

编辑精选​