大型语言模型 - Mandarinian

小型语言模型：苹果、微软推出 LLM 替代方案

科技公司纷纷加入建设最大的大型语言模型（法学硕士）。例如，在四月份，元宣布了4000亿参数骆驼 3，其参数数量（即决定模型如何响应查询的变量）是 OpenAI 的两倍原始 ChatGPT 模型从 2022 年开始。虽然尚未确定， GPT-4 估计有约 1.8 万亿个参数。然而，在过去的几个月里，一些最大的科技公司，包括苹果和微软，引入了小型语言模型 (SLM)。这些模型的大小只是 LLM 模型的一小部分，但在许多基准测试中，它们在文本生成方面的表现可以匹敌甚至超越 LLM 模型。 6 月 10 日，苹果在全球开发者大会上宣布 “Apple Intelligence”模型，其中约有 30 亿个参数. 4月底，微软发布了 Phi-3 家族 SLM，其模型包含 38 亿到 140 亿个参数。 OpenAI 的首席执行官 Sam Altman 认为我们正处于巨型模型时代的终结。在一个一系列测试微软最小的模型 Phi-3-mini […]

史蒂夫·科恩的 Point72 将募集 10 亿美元推出专注于人工智能的对冲基金

纽约大都会队老板兼首席执行官 Point72 67 岁的 Steven A. Cohen 最近透露，他看好人工智能的长期前景，并描述它是一个“真正持久的投资主题”。据消息人士透露，他计划推出一只独立的、专注于人工智能的对冲基金，交易全球人工智能硬件和半导体公司。知情人士补充说，这家资产管理公司正寻求为该对冲基金筹集 10 亿美元，其中一部分资金将来自科恩本人和公司员工，其余资金将来自外部投资者。他们强调，Point72 将在今年晚些时候或 2025 年初推出新的多空股票基金，由投资组合经理埃里克·桑切斯 (Eric Sanchez) 管理。这个独立实体将是 Point72 长期以来的第一只新对冲基金。这家资产管理公司目前拥有一只严格遵守市场中立原则的主要对冲基金，以及几家风险投资实体。有趣的是，由于需要更灵活的授权，新的公开股票发行将与中央基金分开。 “七大股票”领衔的是英伟达，推动整个股市在 2024 年创下新高。利用人工智能系统和机器学习的科技和硬件股势不可挡的上涨，正在转化为该行业热情的提升。科恩表示：“我不认为这是泡沫。我认为市场正在低估人工智能将为企业带来的一些影响。” 说在接受 CNBC 采访时，他指出人工智能如何显著提高各行业公司的生产率，并补充说他的公司找到了一种节省 2500万美元在 ChatGPT 等大型语言模型的帮助下。他认为人工智能的影响是“变革性的”，它可以帮助公司彻底改革运营方式，提高效率，从而节省大量资金。 “将会有大赢家和大输家，”他在四月份的采访中表示，并补充说，尽管这可能需要数年时间才能显现出来，“但当你经历这样的技术变革时，它有点让我想起 90 年代，当时最好的新公司就是在那段时期诞生的。” 几年前，Point72 成立了其首只私募股权基金 Hyperscale，该基金利用人工智能来提高其收购公司的效率。该公司还于 2016 年成立了 Point72 Ventures，将科恩的基金投资于新兴科技公司。史蒂夫科恩是如何发家致富的？科恩以高频交易和愿意在动荡的市场中承担风险以获得高回报而闻名。他的逆向投资和利用市场低效率的方法为他赢得了个人财富 198亿美元。尽管科恩的风险偏好很高，但他拥有全面的风险管理系统，包括头寸调整、止损订单和对冲风险的多样化。他创立了最成功的对冲基金之一 SAC Capital Advisors，该基金对内幕交易收取费用。该公司向投资者偿还了 […]

Slack 将 AST 与大型语言模型相结合，自动转换 15,000 个单元测试中的 80%

Slack 的工程团队最近发布如何使用大型语言模型 (LLM) 自动转换 15,000 个单元和集成测试从酵素到 React 测试库 (RTL)。通过结合抽象语法树 (AST) 转换和 AI 自动化，Slack 的创新方法实现了 80% 的转换成功率，大大减少了所需的手动工作量，并展示了 AI 在简化复杂开发任务方面的潜力。这一转变是由酶的缺乏对 React 18 的支持，需要进行重大转变才能保持与最新反应版本。Slack 的转换工具采用率达到约 64%，为开发人员节省了至少 10,000 小时中的 22% 的时间。虽然这个数字代表节省了不少，但 Slack 高级软件工程师 Sergii Gorbachov 推测，实际上这个数字可能要高得多：值得注意的是，这 22% 的时间节省仅代表测试用例通过的记录案例。但是，可以想象有些测试用例转换正确，但设置或导入语法等问题可能导致测试文件根本无法运行，而这些情况下的时间节省并未被考虑在内。该团队最初尝试使用以下方法自动完成转换抽象语法树（AST）转换，目标是 100% 准确率。然而，Enzyme 方法的复杂性和多样性导致自动转换代码的成功率仅为 45%。导致成功率低的一个因素是，正确的转换取决于渲染结果的上下文信息文档对象模型（DOM）被测试，AST 转换无法访问它。 `wrapper.find('selector');` 的 […]

大型语言模型 (LLM)：AI 文本生成背后的力量 | 作者：Maananjagani | 2024 年 6 月

人工智能 (AI) 已成为我们生活的一部分，大规模语言模型 (LLM) 是许多 AI 应用的核心。从文案撰写到代码开发，LLM 正在改变我们与技术互动的方式。但 LLM 到底是什么？它们如何发挥魔力？让我们探索令人兴奋的 LLM 世界，展示 AI 文本生成背后的强大力量。大型语言模型是一种人工智能模型，旨在理解和掌握人类语言。它使用称为深度学习的机器学习技术来实现，其中包括训练处理大量数据的神经网络。最终得到的模型可以理解上下文、产生一致性，甚至模仿写作风格。 LLM 的核心是神经连接，尤其是 Transformer 模型。该模型有多层节点（神经元），用于处理输入数据并根据收到的数据调整权重。这一学习过程使模型能够捕捉数据中的复杂模式和关系。训练大型语言模型需要庞大的数据集，通常包含来自书籍、文章、网站等的数十亿个单词。在训练过程中，模型会学习说出句子中的下一个单词，从而逐渐提高语法结构、句法和上下文理解能力。与 OpenAI GPT-4 一样，最受欢迎的 LLM 是在具有丰富而广泛的文本内容的数据集上进行训练的，这让它们充满了惊喜 LLM 彻底改变了文本生成方式，使生成高质量、一致且具有语境的内容成为可能。以下是 LLM 产生影响的几种方式。 LLM 可以是文章、博客文章、诗歌，甚至是整本书。它们可以通过提供灵感、建议编辑甚至完成句子来帮助作家。此功能对于需要快速生成大量信息的开发人员特别有用。聊天机器人和虚拟助手使用 LLM 与用户进行更自然、更有意义的对话。该模型能够理解用户的问题、提供适当的回答并在多次交互中保持上下文，从而提升整体用户体验。法学硕士还可用于语言翻译服务，帮助跨越语言障碍的沟通。他们能够提供准确的翻译，理解隐喻，确保保留原文的精髓。对于软件开发人员来说，LLM 还可以帮助生成代码片段、提出改进建议和调试代码。这可以加快开发过程并降低出错的可能性。 LLM 可以根据个人喜好和行为个性化内容。无论是定制营销信息还是定制学习材料，这些模型都可以为每个用户创造独特且相关的体验。虽然 LLM 功能强大，但也存在挑战。一个主要问题是，这些模型从训练数据中学习时，可能会产生有偏见或有害的数据，而训练数据可能存在偏见。为了确保 LLM 的使用合乎道德，需要不断努力减少偏见、提供透明度并制定负责任的实施指南。另一个挑战是培训和管理 LLM 所需的计算资源。这种模式需要大量电力和能源生产，并引发了对环境影响和可及性的问题。大型语言模型的未来前景光明，这些模型所能实现的极限也在不断被突破。研究人员正在努力提高 LLM 的效率，减少其对环境的影响，并提高其理解和处理信息的能力。随着法学硕士在各个应用领域的融合度越来越高，它们有潜力改变行业、提高生产力并创造新机遇。然而，重要的是，它们的开发和实施必须谨慎对待，确保以合乎道德和负责任的方式使用它们。大型语言系统证明了人工智能和机器学习的惊人进步。理解和访问人类语言的能力正在改变我们创造、与技术互动以及解决复杂问题的方式。通过揭开法学硕士的神秘面纱，我们可以更好地了解它们的潜力，应对它们带来的挑战，并为创新和发展开辟新的可能性。随着我们继续探索法学硕士的潜力，有一点很清楚：人工智能文本生成背后的力量开始实现，预示着技术与人类创造力共同发挥作用的未来。 1718561018 #大型语言模型 […]

谷歌人工智能概述可能会产生错误的医疗信息

上个月谷歌推出了新的人工智能搜索工具，名为 AI 概览该公司似乎确信已经对该工具进行了充分测试，并在公告中指出，“人们已经通过我们的实验在搜索实验室中。”该工具并不像典型的谷歌搜索，但返回基于各种来源生成的答案，并在答案下方链接。但在启动后，用户立即开始发布极其错误答案的例子，包括使用胶水的披萨食谱，以及一只狗曾经在 NBA 打过球的有趣事实。作为斯坦福大学互联网观察站的技术研究经理，蕾妮·迪雷斯塔 (Renée DiResta) 多年来一直在追踪网上错误信息。虽然披萨食谱不太可能说服任何人挤上艾尔默，AI Overview 中的错误答案并非全都是如此明显——而且有些可能会造成很大危害。蕾妮·迪雷斯塔多年来一直追踪网上虚假信息，担任斯坦福互联网观测站并且有一个新书了解那些“把谎言变成现实”的网络宣传者。她研究了医疗错误信息通过社交媒体，所以 IEEE 频谱与她讨论了人工智能搜索是否会给粗心的用户带来大量错误的医疗建议。我知道您多年来一直在追踪网络上的虚假信息。您是否认为，像谷歌的 AI Overviews 这样的 AI 增强搜索工具的推出会让情况变得更糟还是更好？蕾妮·迪雷斯塔：这是一个非常有趣的问题。谷歌长期以来实施的一些政策似乎与人工智能生成的搜索产生了矛盾。这让我觉得谷歌试图跟上市场的发展步伐。生成人工智能工具的发布速度令人难以置信地快，我们看到大型科技公司试图确保自己保持竞争力。我认为这是正在发生的事情之一。我们早就知道，大型语言模型会产生幻觉。这并不是什么新鲜事。我认为，将它们部署到搜索领域是仓促且考虑不周的，因为人们希望搜索引擎能为他们提供权威信息。这是你对搜索的期望，而你可能对社交媒体没有这种期望。迪雷斯塔：是的。它返回的信息是从训练数据中合成的。问题是，它似乎没有遵循谷歌长期以来对返回健康信息搜索结果的思考标准。我的意思是，谷歌到目前为止已经有 10 多年的搜索政策，叫做你的金钱或你的生命。你熟悉这个吗？我不这么认为。 “你的钱还是你的命”这一框架长期以来一直指导着谷歌在这些高风险话题上的工作。这就是为什么我认为，当人们看到人工智能生成的搜索结果重复出现明显错误的健康信息（这些信息来自可能恰好出现在训练数据中的低质量网站）时，他们会感到不安。那么看起来 AI 概述似乎并没有遵循同样的政策——或者从外部看起来是这样？迪雷斯塔：从外部来看就是这样。我不知道他们内部是怎么想的。但你看到的那些截图——很多这样的事例都可以追溯到孤立的社交媒体帖子或一个名声不佳但确实存在的诊所——都在网上。这不仅仅是编造。但它也没有给出我们认为的高质量回应结果。我看到谷歌对一些问题的回应是一篇博客文章表示他们意识到了这些糟糕的结果，并正在努力做出改进。我可以给你读一下关于健康的一个要点。它说：“对于新闻和健康等主题，我们已经建立了强大的护栏。在健康方面，我们推出了额外的触发改进措施，以加强我们的质量保护。”你知道这意味着什么吗？ […]

苹果应用商店和 Meta 人工智能助手在欧洲面临挑战

据报道，两家美国科技巨头在欧洲面临新的监管挑战。一起案件涉及苹果的应用商店，而另一个则集中在元的人工智能（AI）助手，元人工智能。英国金融时报（FT）已报告周五（6 月 14 日），欧盟委员会欧盟委员会将对苹果提出指控，因为该公司没有遵守一项要求，即允许应用程序开发商引导用户访问苹果应用商店之外的可用服务而无需向他们收取费用。《金融时报》援引未具名消息人士的话说。报道称，如果这些指控确实针对苹果，这可能是欧盟委员会首次根据最近实施的《数字市场法案》（DMA）提出指控。欧盟委员会在 3 月份表示，它正在利用 DMA 赋予的权力调查苹果，字母和 Meta。报道还称，监管机构仅得出了初步调查结果，如果苹果改变做法，他们可能会重新评估最终决定，而且任何决定的时间都可能发生变化。苹果向英国《金融时报》提供了一份声明：“我们相信我们的计划符合DMA，我们将在欧盟委员会进行调查期间继续与其进行建设性接触。” 至于 Meta，它在周五的一份声明中表示，更新在之前的一篇博客文章中，该公司表示，由于爱尔兰问题，该公司暂停了在欧洲推出人工智能助手 Meta AI 的计划。数据保护委员会（DPC）代表欧洲数据保护机构（DPA）要求其推迟使用 Meta 上成年人分享的内容来训练其大型语言模型（LLM）。 Facebook 和 Instagram 平台。该公司在最新消息中表示，对该请求感到“失望”，并表示已采纳了欧洲数据保护机构的反馈意见，该请求标志着“欧洲创新的倒退”。 Meta 在更新中表示：“我们致力于将 Meta AI 及其驱动模型带给包括欧洲在内的全球更多人。但简单地说，如果不包含本地信息，我们只能为人们提供二流体验。这意味着我们目前无法在欧洲推出 Meta AI。” 更多内容：AI、App Store、苹果、人工智能、数据保护委员会、数字市场法、DMA、EC、EMEA、欧盟、欧盟委员会、大型语言模型、法学硕士、Meta、Meta AI、新闻、PYMNTS 新闻、法规、TechREG、热点 1718411430 #苹果应用商店和 #Meta #人工智能助手在欧洲面临挑战 […]

Nvidia 征服最新 AI 测试

多年来，Nvidia 一直在许多机器学习基准测试中占据主导地位，如今又获得了两项殊荣。 MLPerf人工智能基准测试套件有时被称为“机器学习的奥运会”，它发布了一套新的训练测试，以帮助在竞争计算机系统之间进行更多、更好的同类比较。MLPerf 的新测试之一涉及微调大型语言模型，即采用现有的经过训练的模型，并使用专业知识对其进行进一步训练，以使其适合特定用途。另一种是图神经网络，一些文献数据库、金融系统中的欺诈检测和社交网络背后的一种机器学习。即使有计算机的加入和参与，谷歌的和英特尔人工智能加速器、由 Nvidia 的 Hopper 架构再次占据主导地位。一个包含 11,616 个 Nvidia H100 GPU 的系统（迄今为止最大的集合）在九项基准测试中均名列前茅，并在其中五项（包括两项新基准测试）中创下纪录。 “如果只是用硬件来解决问题，那并不意味着一定会取得进步。” —Nvidia 的 Dave Salvator 11,616-H100 系统是“我们迄今完成的最大系统”，戴夫·萨尔瓦托，Nvidia 加速计算产品总监。它突破了 GPT-3 训练试验不到 3.5 分钟。相比之下，512-GPU 系统大约需要 51 分钟。（请注意 GPT-3 这项任务并不是一次完整的训练，训练可能需要数周时间，花费数百万美元。相反，计算机会在完成之前约定的时间点对具有代表性的数据进行训练。与 Nvidia 最大的竞争对手相比 GPT-3 去年，一台 3,584 H100 计算机，3.5 分钟的结果代表了 3.2 倍的改进。你可能只是从这些系统的大小差异中就能预料到这一点，但在人工智能计算中情况并非总是如此，Salvator 解释道。“如果你只是用硬件来解决问题，那并不是一定会有所改进，”他说。 Salvator 表示：“我们基本上实现了线性扩展。他的意思是，两倍的 […]

大型语言模型如何改变我的工作

生成人工智能，和大型语言模型尤其是，它们开始改变无数技术和创意专业人士的工作方式。例如，程序员正在通过促使大型语言模型. 而 Adobe Illustrator 等图形艺术软件包已经内置了工具，让设计师想象插图、图像或图案通过描述它们。但这些便利几乎无法预示一些分析师所预测的就业领域的巨大变革。科技界的知名人士已经在大大小小的、引人注目的和微妙的方面努力应对生成式人工智能带来的变革，无论是现实的还是设想的。为了更好地了解他们中的一些人如何看待生成式人工智能的未来， IEEE 频谱采访了三位知名人士——一位学术领袖、一位监管者和一位半导体行业高管——关于生成式人工智能如何影响他们的工作。这三位人士安德里亚·戈德史密斯，尤拉杰·科尔巴，和塞缪尔·纳夫齐格，同意与光谱在 2024 IEEE VIC 峰会暨荣誉颁奖晚会，于五月在波士顿举行。点击阅读更多想法：安德里亚·戈德史密斯，普林斯顿大学工程学院院长。尤拉杰·科尔巴斯洛伐克投资和区域发展部数字监管和治理高级专家塞缪尔·纳夫齐格高级副总裁兼高级微设备公司研究员安德里亚·戈德史密斯安德里亚·戈德史密斯是普林斯顿大学工程学院院长。现在投入大量资源到大型语言模型中肯定面临巨大压力。您如何应对这种压力？您如何引导 AI 向新阶段过渡？安德里亚·J·戈德史密斯安德里亚·戈德史密斯: 大学通常会面临巨大挑战，尤其是那些没有普林斯顿大学、麻省理工学院、斯坦福大学或其他常春藤盟校那样的资源的大学。为了研究大型语言模型，你需要优秀的人才，而所有大学都有。但你还需要计算能力和数据。而计算能力是昂贵的，数据通常存放在这些大公司，而不是大学里。所以我认为大学需要更有创造力。普林斯顿大学已经投入了大量资金用于计算资源，以便我们的研究人员能够做——好吧，不是大的语言模型，因为你负担不起。要建立一个大型语言模型……看看开放人工智能或者谷歌或者元. 他们正在花钱数亿美元依靠计算能力，甚至更多。大学做不到这一点。但我们可以更灵活、更有创造力。我们能用语言模型做什么呢？也许不能大的语言模型，但使用较小的语言模型，来推动不同领域的技术发展？也许是在垂直领域，例如，使用大型语言模型来更好地预测疾病，或预测细胞通道变化，或在材料科学中决定追求你想要创新的特定新材料的最佳途径是什么。因此，大学需要弄清楚如何利用我们拥有的资源，利用人工智能技术进行创新。我们还需要考虑新的模式。政府也可以在这里发挥作用。 [U.S.] 政府有这个新举措，国家航空航天局或国家 […]

OpenAI、Anthropic AI 研究揭示了法学硕士如何影响安全和偏见

由于大型语言模型使用类似神经元的结构来运作，这些结构可能会将许多不同的概念和模式联系在一起，因此人工智能开发人员很难调整他们的模型来改变模型的行为。如果你不知道哪些神经元连接哪些概念，你就不知道要改变哪些神经元。 5月21日， Anthropic 发布了一张非常详细的地图了解 Claude AI 微调版本（特别是 Claude 3 Sonnet 3.0 模型）的内部工作原理。大约两周后，OpenAI 发布了自己的研究成果，旨在弄清楚 GPT-4 如何解释模式。借助 Anthropic 的地图，研究人员可以探索类似神经元的数据点（称为特征）如何影响生成式人工智能的输出。否则，人们只能看到输出本身。其中一些特征是“与安全相关的”，这意味着如果人们能够准确识别这些特征，它可以帮助调整生成式人工智能，以避免潜在的危险话题或行为。这些特征对于调整分类很有用，而分类可能会影响偏见。人类学发现了什么？ Anthropic 的研究人员从当代大型语言模型 Claude 3 中提取了可解释的特征。可解释的特征可以从模型可读的数字转化为人类可理解的概念。可解释的特征可能适用于不同语言中的同一概念以及图像和文本。检查特征可以揭示 LLM 认为哪些主题是相互关联的。在这里，Anthropic 显示了与金门大桥相关的单词和图像上激活的某个特征。不同的颜色阴影表示激活的强度，从白色表示无激活到深橙色表示强激活。图片：Anthropic 研究人员写道：“我们这项研究的高层目标是将模型（Claude 3 Sonnet）的激活分解为更易于解释的部分。” 他们表示：“可解释性的一个希望是，它可以成为一种‘安全测试集’，让我们判断在训练期间看似安全的模型在部署时是否真的安全。” 查看：Anthropic 的 Claude Team 企业计划为中小型企业提供了 AI 助手。特征由稀疏自动编码器生成，稀疏自动编码器是一种神经网络架构。在人工智能训练过程中，稀疏自动编码器受缩放定律等指导。因此，识别特征可以让研究人员了解人工智能将哪些主题关联在一起的规则。简而言之，Anthropic 使用稀疏自动编码器来揭示和分析特征。研究人员写道：“我们发现了各种高度抽象的特征。它们（这些特征）既响应抽象行为，又在行为上引发抽象行为。” 有关试图弄清楚 LLM 内部情况的假设的详细信息，请参阅 Anthropic 的研究论文。 OpenAI 发现了什么？ OpenAI 的研究于 6 […]

1 位 LLM 可以解决 AI 的能源需求

大型语言模型，为聊天机器人提供支持的人工智能系统，例如 ChatGPT，变得越来越好——但它们也变得越来越大，需要更多的能量和计算能力。对于廉价、快速且环保的 LLM，它们需要缩小，理想情况下要小到可以直接在手机等设备上运行。研究人员正在寻找方法来实现这一点，方法是将存储其内存的许多高精度数字大幅度四舍五入为 1 或 -1。 LLM 与所有神经网络一样，都是通过改变人工神经元之间的连接强度来训练的。这些强度以数学参数的形式存储。研究人员长期以来一直通过降低这些参数的精度来压缩网络（这一过程称为量化），这样它们可能占用 8 位或 4 位，而不是 16 位。现在，研究人员正在将精度提升到 1 位。如何获得 1 位法学硕士学位有两种通用方法。一种方法称为训练后量化 (PTQ)，即量化全精度网络的参数。另一种方法，即量化感知训练 (QAT)，即从头开始训练网络以具有低精度参数。到目前为止，PTQ 更受研究人员的欢迎。今年 2 月，苏黎世联邦理工学院的秦昊桐、北京航空航天大学的刘祥龙和香港大学的黄伟组成的团队提出了一种 PTQ 方法，称为法学硕士。它使用 1 位近似网络中的大多数参数，但使用 2 位表示一些显著权重（对性能影响最大的权重）。在一次测试中，该团队对 Meta 的一个版本进行了二值化骆驼具有 130 亿个参数的 LLM。 “1 位 LLM 为设计专门针对 1 位 LLM 优化的定制硬件和系统打开了新的大门。” —Furu Wei, 微软亚洲研究为了评估表现，研究人员使用了一种称为困惑度，这基本上是衡量经过训练的模型对随后出现的每段文本的惊讶程度的指标。对于一个数据集，原始模型的困惑度约为 5，而 BiLLM […]

Tag: 大型语言模型

信息