了解生成式 AI 时代的 AI 堆栈 | 作者:MongoDB | MongoDB | 2024 年 6 月

只需一次 API 调用,您就可以拥有一个拥有数十亿个参数的强大 LLM。这让我们了解了 AI 堆栈的最关键组件,即模型提供程序或模型本身。

模型提供商是提供现成的 AI 模型(例如嵌入模型、微调模型和基础模型,以便集成到生成式 AI 应用程序中)的组织,无论规模大小。

当今的人工智能领域提供了大量模型,可实现预测分析、图像生成、文本补全等功能。人工智能领域(包括生成式人工智能)中的模型可访问性分为闭源模型和开源模型。

闭源模型是指具有私有内部配置、架构和算法的模型,不与模型使用者共享。相反,负责该模型的创建者或组织掌握有关该模型的关键信息。诸如模型的训练方式以及模型训练所依据的数据等信息也不向公众公开,不可供审查、修改或使用。闭源模型可通过 API(应用程序编程接口)端点或应用程序接口访问。

闭源模型的关键方面在于,模型的使用者(非创建者)无法大幅改变模型的行为,只能通过 API 等抽象来改变创建者公开的模型部分。闭源模型及其提供者的常见示例包括:

  • 克劳德由 Anthropic 提供,可通过网络聊天界面和 API 访问。
  • 开放人工智能,这使得 GPT-3.5 和 GPT-4 等 LLM 以及 text-embedding-3-small、text-embedding-3-large 和 text-embedding-ada-002 等嵌入模型可通过 API 和聊天界面使用。

开源模型的内部架构、网络配置、训练数据、权重、参数等都是公开的。开源社区及其努力促进了人工智能社区内的协作和开放。

讨论与 AI 模型相关的开源软件框架是件复杂的事情,因为开源有多种版本。长话短说,开源并不一定意味着完全开放。为简单起见,以下是与 AI 堆栈相关的常见开源类型。

  • 开源:模型的各个方面,例如权重、架构配置、训练数据、训练方法等,都是公开可用的,没有任何限制。
  • 开放式重量:仅模型权重和参数公开供使用。
  • 开放模型:模型权重和参数可供使用,但需要同意创建者的使用条款。

开源模式带来的机遇在于,技术获取途径的民主化,此前,只有拥有足够资源大规模培训和发展法学硕士的在职人员才能获得这些技术。开源法学硕士降低了开发人员探索各种用例的门槛,而这些用例对于大公司来说太小众了。

开源法学硕士 (LLM) 及其提供者的示例包括:

  • 骆驼 是一个拥有数百亿个变体和参数的文本生成模型。LLaMA 模型家族类由 Meta 创建和发布。
  • 混合-8×7 由 Mistral AI 提供。
  • 由 Google 提供。
  • 格罗克 来自 X

AI 工程师和机器学习从业者经常争论是否将开源或闭源大型语言模型纳入他们的 AI 堆栈。这一选择至关重要,因为它决定了开发过程、项目的可扩展性、道德考量以及应用程序的实用性和商业灵活性。

以下是 AI 工程师在选择 LLM 及其提供商时需要考虑的典型因素。

资源可用性

一旦检查了计算资源的可用性和团队专业知识,通常就可以快速确定选择开源模型还是闭源模型。闭源模型提供商抽象了开发、训练和管理 LLM 的复杂性,但代价是要么使用消费者数据作为训练数据,要么将私有数据访问的控制权交给第三方。

利用 AI 堆栈中的闭源模型提供商可以确保将更多精力放在堆栈的其他组件上,例如开发直观的用户界面或确保强大的数据完整性和专有数据的质量。开源模型提供了强烈的控制感和隐私感。但与此同时,必须仔细考虑微调、维护和部署开源模型所需的资源。

项目要求

了解任何 AI 项目的技术要求对于决定是否利用开源或闭源 LLM 至关重要。项目的规模是需要考虑的理想因素。AI 项目中的可交付成果旨在服务多少消费者或用户?大规模提供价值的大型 AI 项目最有可能受益于闭源模型提供商提供的技术支持和服务保障。

但是,您只能依靠提供商的 API 正常运行时间和可用性。相比之下,对正常运行时间要求不高的小规模项目或仍处于概念验证阶段的项目可以考虑尽早利用开源 LLM。

隐私要求

与生成式人工智能相关的隐私主题主要集中在与封闭式 LLM 提供商(例如 OpenAI、Anthropic 等)共享敏感信息和数据。在生成式人工智能时代,专有数据是一种宝贵的商品,而互联网中存储大量文本、图像和视频的领域正在让模型提供商同意人工智能数据许可合同。

对于人工智能从业者来说,是否使用闭源或开源模型提供商,取决于获取尖端技术与保持对其数据隐私和安全的控制之间的微妙平衡。

1718873320
#了解生成式 #时代的 #堆栈 #作者MongoDB #MongoDB #年 #月
2024-06-20 08:38:25

Leave a Reply

Your email address will not be published. Required fields are marked *

近期新闻​

编辑精选​