大型语言模型 (LLM) 和向量数据库

大卫·布兰克-埃德尔曼 和我们的扶手椅建筑师 乌利·霍曼埃里克·查兰 将专注于大型语言模型(LLM)和 矢量数据库 以及它们在推动人工智能、机器学习和法学硕士方面的作用。

什么是矢量数据库?

Eric 将向量数据库定义为一种存储有关数据多维方面的有意义信息的方式,例如所谓的向量,它们是数值的,通常是数值整数,其工作方式非常类似于传统的关系数据库系统。

矢量数据库的有趣之处在于它们可以帮助我们解决不同类型的查询。 一种类型的查询类似于“最近邻居”。 例如,如果 Spotify 知道 Eric Charran 喜欢 Def Leppard 并且他喜欢这一首歌,那么根据 Spotify 可能拥有的多个维度,有哪些非常非常相似的最接近的其他歌曲,以便它可以推荐这首其他歌曲歌曲。 它的工作原理是,它只是使用向量之间的数字距离来找出该问题的答案。

Uli 补充说,人工智能背景下的矢量数据库正在有效地使用文本,并将文本转换为这些数字表示。 例如,如果您进入 PostgreSQL 社区,PostgreSQL 团队已经在 PostgreSQL 中添加了一个插件,您可以在其中获取任何文本字段,将其转换为向量,然后您可以将该向量嵌入到 LLM 中。

向量已经存在很长时间了,因为它是神经网络模型的一部分,归根结底,这些也是向量。 现在这是特定于数据的,因为它不仅仅是数据库,虽然数据库将会流行,但您会看到搜索系统也将其搜索索引公开为向量。

Azure 认知搜索 例如,Uli 认为其他搜索系统也能做到这一点。 您可以采用该索引并将其作为 OpenAI 系统或 Bard 或任何您喜欢的 AI 系统的一部分。

矢量数据库是实现人工智能系统的一种方法,另一种方法是嵌入。

矢量数据库和自然语言处理 (NLP)

让我们看看向量数据库如何在现实世界和 NLP 中使用,其中使用了嵌入。 例如,采用单词嵌入、句子嵌入,使它们成为特定的整数基,这样法学硕士实际上可以将它们包含在用于训练它的信息语料库中。 这是一个矢量数据库用例,另一个用例是前面的“最近邻居”示例。

如果您还记得,对于最近邻居用例,如果我有这个特定的项目,对象输入,距离它最近的最近的东西或最远的东西是什么。 这可以包括图像和视频检索、获取非结构化数据并将其矢量化,以便您可以找到它、显示它并执行所有重要的比较操作。 这还可以包括异常检测和 地理空间数据 然后是机器学习。

嵌入在法学硕士的背景下意味着什么?

法学硕士主要在互联网上接受培训,因此,如果您正在研究 Bard 或您正在研究 OpenAI,他们会获得互联网的副本作为知识库,从概念上讲,它的工作原理是将其矢量化并将其放入法学硕士。

现在这是一套很棒的知识,如果您使用 ChatGPT 或 Bing Chat 或类似的东西,您将有效地访问互联网。 这很棒,但大多数 LLM 都是静态的,例如,OpenAI 模型是在 2021 年的某个时间编译的。如果您在没有任何帮助的情况下向模型询问 2022 年的事件,它不会知道,因为从概念上讲,它是编译的,所掌握的知识不包括 2022 年的事件。

因此,现在发生的情况是,例如,您从互联网引入模型,有效地让这些法学硕士理解“哦,有一些超出我已经知道的事情”并将其引入。例如,这种情况适用于互联网搜索。

如果您是一家企业,您会关心全球知识,但您希望企业的特定知识也成为此搜索的一部分。 因此,如果像埃里克这样的人正在他的新公司中寻找特定的东西,那么他也可以获得该公司的知识。 这就是所谓的数据基础,您可以使用企业拥有的数据来基础模型并扩展知识,而嵌入是实现这一目标的一种技术。

嵌入简单地说,就是将这个知识向量折叠到更大的模型中,以便每次运行查询时,该嵌入都将成为系统在响应您之前评估的查询的一部分。 Eric 的想法是,矢量数据库存储在互联网网页信息语料库中找到的概念的基于整数的表示,它允许您将邻近的概念链接在一起。

如果法学硕士接受这些向量和嵌入的训练,这就是法学硕士真正理解概念的方式。 它是语义概念的矢量化,然后它们之间的距离方程允许模型将这些东西缝合在一起并做出相应的响应。

使用 LLM 的单次或多次训练

LLM 团队现在拥有技术和工具,可以轻松通过嵌入将向量存储和向量数据库引入模型中。 提示是确保您使用正确的工具来帮助您,但是在此之前,您可以使用提示工程将您正在寻找的示例数据提供到模型中。 即时工程的一部分是所谓的单次或多次训练。 作为提示的一部分,您会说:“我期待这种输出。”

然后系统会考虑到这一点并说“啊,这就是您要找的”并做出同样的回应。 您可以向它提供大量示例数据,这就是我希望您查看的内容,这显然比执行嵌入和其他操作便宜得多,因为它是提示的一部分,因此在进入嵌入之前应始终首先考虑。

公司最终将使用嵌入,但您应该从一次训练和多次训练开始,因为这些模型中有很多知识,如果您给予正确的提示,就可以将其诱导出来。

法学硕士微调
微调是采用模型并尝试开发适合用途的数据集的方式。 无论是您下载或使用的预编译模型还是已经训练过的模型,您都需要进行额外的训练循环,以便它在适合目的的数据集上进行训练,以便您基本上可以调整它以按以下方式响应您打算让它做出响应。

微调元素是基于围绕目的驱动的数据集的迭代训练循环来调整模型的参数。 关键部分是在哪里引入特定的数据集,并获取模型的一层并对其进行训练。 您正在向通用模型添加更多约束,并且它使用您的数据来影响您所在的特定领域(例如医疗保健或工业自动化领域)的培训本身。 微调也非常有帮助 幻觉 因为你告诉系统这是你需要注意的,它会有效地适应并且更加精确。

法学硕士和一次性或多次培训的局限性

大语言模式确实不擅长两件事。 一是数学,所以不要让它帮你做微积分,那是行不通的。 截至今天,第二个是,你不能将法学硕士指向结构化数据库,让系统自动理解这是模式,这是数据并要求它产生良好的响应。 还有很多工作要做。

目前最先进的技术是您可以有效地构建垫片或解决它; 您编写代码,然后可以将其集成到提示中。 例如,OpenAI 有一种方法可以让您在提示中调用函数,并且该函数可以返回关系数据或结构化数据。

从单次或多次训练中,您可以获取不能太大的结果集,并将其输入到提示中。 还有基于管道的编程,本场景对此进行了解释。

  • 你是一家保险公司。
  • David 是该保险公司的客户,想了解他的理赔情况。
  • 你进入你的网站并输入聊天内容,我需要知道的第一件事是大卫是谁? 在我的 CRM 系统中,您会知道 David 是谁,他有什么保险,有哪些索赔待处理,等等……这些都是 CRM 系统中的结构化信息,也许还有索赔管理系统。
    • 第一阶段是解析语言,例如 David 使用 GPT 输入的文本,提取相关信息,然后通过结构化 API 调用提供信息。
    • 您会得到结果集。
  • 然后,您可以使用提示工程以及单次和多次训练来创建您真正想要用于响应的提示。
  • 然后系统会生成您正在寻找的响应,内容为“嗨,大卫,很高兴再次见到您,这是索赔的状态。”
  • 在这种情况下,您刚刚使用了 OpenAI 模型两次,而不是一次。

总之,您首先使用它来理解语言并提取调用结构化 API 所需的内容,然后将结构化系统的响应反馈到提示中,以便它生成您正在寻找的响应。

增加矢量索引的采用

埃里克从小就是一名架构师,我如何确定我是否需要专用的矢量数据库,或者我可以使用这些称为矢量搜索索引的东西? 另一个问题可能是我如何构建一个系统,以便帮助LLM开发人员更好地完成工作或更高效地工作?

Eric 认为我们正在达到一个转变点,矢量数据库曾经是矢量的关系数据库管理系统 (RDBMS),并回答与矢量相关的查询。

他看到许多 Lake House 平台和传统数据库管理系统都采用矢量索引,这样开发人员就不必拾取数据并将其移动到另一个特定位置,对其进行矢量化并存储。 现在,关系数据库管理系统或湖屋的这些组件可以在数据所在的位置(例如增量表)上创建向量。 这是一个架构考虑因素,它应该让架构师感到高兴,因为世界上最重的东西是移动数据,而架构师讨厌这样做。

围绕矢量数据库的架构注意事项
另一个架构考虑因素是如何真正实现矢量化? 是写操作的ETL方案吗? 是否存在与矢量化本身相关的逻辑? 当您尝试为您的组织创建平台时,所有这些信息都很重要,需要考虑。

如果您正在创建自己的基础模型,则矢量化以及数据矢量化或嵌入的过程变得非常重要。

您还必须担心是否允许根据您的行业存储特定信息,例如金融服务、生命科学、健康,以及您可能需要在数据消失之前扫描和标记化的所有不同事物进入矢量化过程。

架构师需要思考的另一个考虑因素是,虽然矢量化是一项关键技术,但我们现在已经看到了真实的数据,在微软的例子中,矢量化并不是问题的唯一答案。 微软已经发现,从开放人工智能系统的响应角度来看,搜索索引加向量化实际上比仅向量或仅索引查询更快、更可靠。

在开发解决方案时,在这种情况下您应该更加灵活,您会说“我将如何获取这些数据?”有时它是多种技术的组合,而不仅仅是一种可行或最有效的技术。高效的。

Uli 的架构是对你所拥有的工具的理解,并真正选择它是什么,理想情况下不要寻找非黑即白的答案,因为世界大多是灰色的,选择正确的工具在一起会产生正确的答案,而不是单一的工具或技术。

资源

相关剧集

建议的后续步骤

如果您想了解有关 Microsoft 规定的一般原则的更多信息,我们建议您 微软云采用框架 用于平台和环境级别的指导和 Azure 架构完善的框架。 您还可以注册一个 即将举行的研讨会 由 Azure 合作伙伴主导云迁移和采用主题,并纳入点击实验室以确保有效、务实的培训。

您可以观看下面的整个视频并查看我们的更多视频 Azure 启用展示

法学硕士和矢量数据库 - 第 2 部分.jpg

1708844202
#大型语言模型 #LLM #和向量数据库
2024-02-24 00:02:21

Leave a Reply

Your email address will not be published. Required fields are marked *

近期新闻​

编辑精选​