大型语言模型如何改变我的工作

生成人工智能, 和 大型语言模型 尤其是,它们开始改变无数技术和创意专业人士的工作方式。例如,程序员正在通过 促使大型语言模型. 而 Adob​​e Illustrator 等图形艺术软件包已经内置了工具,让设计师 想象插图、图像或图案 通过描述它们。

但这些便利几乎无法预示一些分析师所预测的就业领域的巨大变革。科技界的知名人士已经在大大小小的、引人注目的和微妙的方面努力应对生成式人工智能带来的变革,无论是现实的还是设想的。为了更好地了解他们中的一些人如何看待生成式人工智能的未来, IEEE 频谱 采访了三位知名人士——一位学术领袖、一位监管者和一位半导体行业高管——关于生成式人工智能如何影响他们的工作。这三位人士 安德里亚·戈德史密斯尤拉杰·科尔巴, 和 塞缪尔·纳夫齐格,同意与 光谱2024 IEEE VIC 峰会暨荣誉颁奖晚会,于五月在波士顿举行。

点击阅读更多想法:

  1. 安德里亚·戈德史密斯,普林斯顿大学工程学院院长。
  2. 尤拉杰·科尔巴斯洛伐克投资和区域发展部数字监管和治理高级专家
  3. 塞缪尔·纳夫齐格高级副总裁兼高级微设备公司研究员

安德里亚·戈德史密斯

安德里亚·戈德史密斯是普林斯顿大学工程学院院长。

现在投入大量资源到大型语言模型中肯定面临巨大压力。您如何应对这种压力?您如何引导 AI 向新阶段过渡?

安德里亚·J·戈德史密斯

安德里亚·戈德史密斯: 大学通常会面临巨大挑战,尤其是那些没有普林斯顿大学、麻省理工学院、斯坦福大学或其他常春藤盟校那样的资源的大学。为了研究大型语言模型,你需要优秀的人才,而所有大学都有。但你还需要计算能力和数据。而计算能力是昂贵的,数据通常存放在这些大公司,而不是大学里。

所以我认为大学需要更有创造力。普林斯顿大学已经投入了大量资金用于计算资源,以便我们的研究人员能够做——好吧,不是 大的 语言模型,因为你负担不起。要建立一个大型语言模型……看看 开放人工智能 或者 谷歌 或者 . 他们正在花钱 数亿美元 依靠计算能力,甚至更多。大学做不到这一点。

但我们可以更灵活、更有创造力。我们能用语言模型做什么呢?也许不能 大的 语言模型,但使用较小的语言模型,来推动不同领域的技术发展?也许是在垂直领域,例如,使用大型语言模型来更好地预测疾病,或预测细胞通道变化,或在材料科学中决定追求你想要创新的特定新材料的最佳途径是什么。因此,大学需要弄清楚如何利用我们拥有的资源,利用人工智能技术进行创新。

我们还需要考虑新的模式。政府也可以在这里发挥作用。 [U.S.] 政府有这个新举措, 国家航空航天局或国家 人工智能 研究资源,他们将提供计算能力、数据和专家供教育工作者使用——研究人员和教育工作者。

这可能会改变游戏规则,因为不仅仅是每所大学投入自己的资源或教职员工必须写拨款,而这些拨款永远不会支付他们所需的计算能力。这是政府整合资源并将其提供给学术研究人员。所以这是一个激动人心的时刻,我们需要以不同的方式思考研究——这意味着大学需要以不同的方式思考。公司需要以不同的方式思考如何引进学术研究人员,如何开放他们的计算资源和数据供我们创新。

作为院长,您拥有独特的地位,可以知道哪些技术领域真正热门,吸引大量资金和关注。但您有多大能力引导一个部门及其研究人员进入特定领域?当然,我考虑的是大型语言模型和生成式人工智能。决定新的重点领域或新计划是一个协作过程吗?

金匠: 绝对是。我认为,任何认为自己的职责是引导教职员工朝特定方向发展的学术领导者都没有正确的领导力观。我认为学术领导力实际上关乎你所领导的教职员工和学生的成功。当我在 2020 年秋季为普林斯顿工程学院制定战略规划时,一切都停摆了。当时正值新冠疫情中期,但我是个乐观主义者。所以我说:“好吧,这不是我期望在普林斯顿担任工程学院院长的方式。”但是,在一所伟大的文理大学领导工程学院的机会并没有改变,这所大学有志于提高工程的影响力。所以我通过 Zoom 与工程学院的每一位教职员工(总共 150 名)进行了一对一的会面。

我问的问题是:“你的目标是什么?我们应该共同追求什么?”我收集了这 150 份回复,并询问了所有领导、部门、中心和研究所,因为已经有一些举措 机器人 以及生物工程和智慧城市。我说:“我希望你们所有人都能制定自己的战略计划。你们在这些领域有什么目标?然后让我们一起为工程学院制定战略计划。”这就是我们所做的。我担任院长的过去四年里,我们所取得的成就都来自这些讨论,以及学院的教职员工和教职员工领导所追求的目标。

因此,我们去年夏天成立了一家生物工程研究所。我们刚刚成立了普林斯顿机器人公司。我们启动了一些战略计划中没有的东西。我们成立了一个 区块链 技术及其社会影响。我们有一个量子计划。我们有一个人工智能计划,利用人工智能这一强大的工具进行工程创新,不仅仅是围绕大型语言模型,而是一个工具——我们如何利用它来推动创新和工程?所有这些都来自教师,因为要成为一名成功的学术领袖,你必须意识到一切都来自教师和学生。你必须利用他们的热情、他们的抱负、他们的愿景来创造一个集体愿景。

尤拉杰·科尔巴

Juraj Čorba 是数字监管和治理的高级专家, 斯洛伐克投资部、区域发展和信息,以及 人工智能治理工作组 在经济合作与发展组织。

在欧洲人工智能政策和治理方面,最重要的组织和管理机构有哪些?

肖像画中的是一位胡子刮得很干净的棕色头发的男士,身穿蓝色纽扣衬衫。尤拉杰·科尔巴

尤拉吉科尔巴: 嗯,有很多。这也给全球带来了一些困惑——欧洲的参与者是谁?所以澄清一下总是好的。首先我们有 欧洲联盟它是一个超国家组织,由许多成员国组成,包括我自己的斯洛伐克。欧盟提议在 2021 年通过一项人工智能横向立法。这是欧盟的倡议。 欧盟委员会欧盟机构,在欧盟拥有立法主动权, 我已经采取行动 现在终于被采纳了。它已经被 欧洲议会

所以你说这是从 2021 年开始的。那是在 ChatGPT 整个大型语言模型现象真正流行起来。

汤: 事实确实如此。专家们早就知道实验室里正在酝酿着什么。但是,包括大型语言模型在内的大型模型的整个议程直到 2021 年之后才出现。因此,欧盟试图反映这一点。基本上,最初的人工智能监管提案是基于所谓的产品安全蓝图,该蓝图以某种方式预设了某种预期用途。换句话说,产品的检查和评估或多或少是基于 20 世纪工业规模大规模生产的逻辑,对吧?就像当你拥有可以轻松定义的产品时,它们都有明确的预期用途。而有了这些大型模型,可以说开辟了一个新的范式,它们具有通用用途。

因此,整个提案在双方谈判中被重写。 部长理事会,它是立法机构之一,还有欧洲议会。因此,我们今天所拥有的是这种旧产品安全方法与一些专门为我们所谓的通用人工智能系统或模型设计的新颖监管方面的结合。这就是欧盟

你说的产品安全是指,如果基于人工智能的软件正在控制一台机器,那么你就需要有物理安全。

汤: 没错。这是其中一个方面。这涉及到有形产品,例如车辆、玩具、医疗设备、机械臂等。所以是的。但从一开始,该提案就包含了欧盟委员会所谓的独立系统的规定——换句话说,软件系统不一定控制物理对象。所以它从一开始就存在,但所有这些都基于这样的假设:所有软件都有其易于识别的预期目的——即 不是 通用人工智能的案例​​。

此外,大型语言模型和生成式人工智能通常带来了另一个维度,即宣传、虚假信息、深度伪造等等,这与传统的实时软件安全概念不同。

因此,很大程度上受到大型语言模型活动的推动, 人工智能监管和治理 现在,人工智能在美国、欧洲和亚洲都是一个热门话题。但在这三个地区中,我感觉欧洲在监管和管理人工智能方面进展最为积极。您是否同意欧洲总体上比美国和亚洲采取了更积极主动的立场?

汤: 我不太确定。如果你看看中国的做法以及他们监管我们所谓的生成式人工智能的方式,在我看来,他们也非常重视这一点。从监管的角度来看,他们采取了不同的方法。但在我看来,例如,中国正在采取一种非常专注和谨慎的方法。对于美国,我不会说美国没有采取谨慎的做法,因为去年你看到了很多行政命令,甚至今年,一些 行政命令 由拜登总统颁布。当然,这不是一项立法措施,这是一项总统令。但在我看来,美国也在非常积极地试图解决这个问题。美国还发起了第一个决议 联合国大会讨论人工智能,该法案刚刚通过。因此,我不会说欧盟与亚洲或北美相比更积极,但也许我会说欧盟是最全面的。它横跨不同的议程,并使用具有约束力的立法作为工具,而这在世界各地并不总是如此。许多国家只是觉得以具有约束力的方式立法为时过早,因此他们选择软性措施或指导、与私营公司的合作等。这些就是我看到的不同之处。

您认为这三个地区的关注点有什么不同吗?美国是否比欧洲更积极地追求某些方面,反之亦然?

汤: 当然,欧盟非常重视保护人权,包括所有人权,但当然也重视安全和人类健康。这些是欧盟立法所要保护的核心目标或价值观。至于美国和中国,我想说,这些国家的主要关注点——但这只是我个人的印象——是国家和经济安全。

塞缪尔·纳夫齐格

Samuel Naffziger 是 AMD 的高级副总裁兼企业研究员,负责技术战略和产品架构。Naffziger 在 AMD 拥抱和开发 芯片,它们是被封装在一起成为高性能模块的半导体芯片。

大型语言模型训练在多大程度上开始影响你和你的同事在 AMD

身穿深蓝色衬衫的棕色头发男子的肖像。塞缪尔·纳夫齐格

Samuel Naffziger: 嗯,这有几个层面。LLM 影响着我们很多人的生活和工作方式。我们当然在内部非常广泛地部署它,以提高生产力,使用 LLM 提供代码的起点 — — 简单的口头请求,例如“给我一个 Python 脚本来解析这个数据集”。然后你就得到了一个非常好的代码起点。节省了大量的时间。编写验证测试台,帮助优化物理设计布局。所以有很多生产力方面。

LLM 的另一个方面当然是我们积极参与 GPU 的设计 [graphics processing units] 用于 LLM 训练和 LLM 推理。因此,这需要对需求、硬件需求和软硬件协同设计进行大量的工作量分析,以供探索。

那么这就引出了你们目前的旗舰产品, 本能 MI300X,它实际上被称为 AI 加速器。这些特殊需求如何影响了这种设计?我不知道这种设计是什么时候开始的,但 ChatGPT 时代大约在两年前开始的。你在多大程度上预知到了这一趋势?

纳夫齐格: 所以我们刚刚进入 MI300——2019 年,我们开始开发。很久以前。当时,我们的收入来源是 [an AMD architecture used in a family of processors] 复兴刚刚开始。公司开始变得更健康,但当时我们没有太多额外收入用于研发。所以我们必须非常谨慎地使用我们的资源。我们与 [U.S.] 能源部用于超级计算机部署。这是我们 MI 系列的起源——我们为超级计算市场开发它。现在,人们认识到,通过 FP64 COBOL 代码或 Fortran 来处理不是未来,对吧? [laughs] 这种机器学习 [ML] 事情确实有了进展。

所以我们把一些 低精度数学格式 在,像 大脑浮点 16 当时,这对于推理来说很重要。美国能源部知道机器学习将成为超级计算机的一个重要维度,而不仅仅是遗留代码。所以就是这样,但我们专注于 HPC [high-performance computing]。我们有远见,知道机器学习具有真正的潜力。尽管我认为没有人预测到我们今天所看到的爆炸式增长。

这就是它的由来。还有一点:我们利用模块化芯片专业知识来设计 300,以支持来自相同硅片组件的多种变体。因此,针对超级计算机市场的变体将 CPU 作为芯片直接集成在硅片模块上。然后它有六个我们称之为 GPU 芯片的 GPU 芯片。 XCD围绕它们。所以我们有三个 CPU 芯片和六个 GPU 芯片。这提供了一个非常高效、高度集成的 CPU 加 GPU 设计,我们称之为 MI300A。它非常引人注目 El Capitan 超级计算机 我们谈话的时候就提到了这一点。

但我们也认识到,对于这些 AI 工作负载的最大计算量,CPU 并没有那么大的优势。我们想要更多的 GPU。对于这些工作负载,一切都与数学和矩阵乘法有关。因此,我们能够将这三个 CPU 芯片换成另外几个 XCD GPU。因此,我们在模块中得到了八个 XCD,这就是我们所说的 MI300X。所以我们很幸运能在正确的时间拥有正确的产品,但也需要很多技巧,因为我们看到了这些工作负载的发展方向,并且我们提供了设计来支持它。

之前你提到 3D芯片. 您认为这一演变的下一个自然步骤是什么?

纳夫齐格: 人工智能创造了对更多计算的无限渴求 [power]所以我们总是希望将尽可能多的晶体管塞进一个模块中。这样做的好处是,这些系统通过数千、数万或更多的计算设备提供大规模的人工智能性能。它们都必须紧密连接在一起,具有非常高的带宽,而所有这些带宽都需要电力,需要非常昂贵的基础设施。因此,如果需要一定程度的性能——一定数量的千万亿次或百亿亿次浮点运算——那么成本和功耗的最大杠杆就是实现泽塔浮点运算所需的 GPU 数量。如果 GPU 的功能强大得多,那么整个系统基础设施就会崩溃——如果你只需要一半的 GPU,其他一切都会减少一半。因此,在设备层面实现非常高的集成度和性能水平有着很强的经济动机。而实现这一目标的唯一方法是使用小芯片和 3D 堆叠。所以我们已经踏上了这条道路。要实现这一目标,需要解决许多棘手的工程问题,但这将继续下去。

那么会发生什么呢?显然我们可以增加层数,对吧?我们可以塞入更多东西。随之而来的热挑战将成为我们行业擅长解决的有趣工程问题。

来自您的网站文章

网络上的相关文章

2024-06-06 13:59:22
1718005362

Leave a Reply

Your email address will not be published. Required fields are marked *

近期新闻​

编辑精选​