了解生成式 AI 时代的 AI 堆栈 | 作者:MongoDB | MongoDB | 2024 年 6 月

只需一次 API 调用,您就可以拥有一个拥有数十亿个参数的强大 LLM。这让我们了解了 AI 堆栈的最关键组件,即模型提供程序或模型本身。 模型提供商是提供现成的 AI 模型(例如嵌入模型、微调模型和基础模型,以便集成到生成式 AI 应用程序中)的组织,无论规模大小。 当今的人工智能领域提供了大量模型,可实现预测分析、图像生成、文本补全等功能。人工智能领域(包括生成式人工智能)中的模型可访问性分为闭源模型和开源模型。 闭源模型是指具有私有内部配置、架构和算法的模型,不与模型使用者共享。相反,负责该模型的创建者或组织掌握有关该模型的关键信息。诸如模型的训练方式以及模型训练所依据的数据等信息也不向公众公开,不可供审查、修改或使用。闭源模型可通过 API(应用程序编程接口)端点或应用程序接口访问。 闭源模型的关键方面在于,模型的使用者(非创建者)无法大幅改变模型的行为,只能通过 API 等抽象来改变创建者公开的模型部分。闭源模型及其提供者的常见示例包括: 克劳德由 Anthropic 提供,可通过网络聊天界面和 API 访问。 开放人工智能,这使得 GPT-3.5 和 GPT-4 等 LLM 以及 text-embedding-3-small、text-embedding-3-large 和 text-embedding-ada-002 等嵌入模型可通过 API 和聊天界面使用。 开源模型的内部架构、网络配置、训练数据、权重、参数等都是公开的。开源社区及其努力促进了人工智能社区内的协作和开放。 讨论与 AI 模型相关的开源软件框架是件复杂的事情,因为开源有多种版本。长话短说,开源并不一定意味着完全开放。为简单起见,以下是与 AI 堆栈相关的常见开源类型。 开源:模型的各个方面,例如权重、架构配置、训练数据、训练方法等,都是公开可用的,没有任何限制。 开放式重量:仅模型权重和参数公开供使用。 开放模型:模型权重和参数可供使用,但需要同意创建者的使用条款。 开源模式带来的机遇在于,技术获取途径的民主化,此前,只有拥有足够资源大规模培训和发展法学硕士的在职人员才能获得这些技术。开源法学硕士降低了开发人员探索各种用例的门槛,而这些用例对于大公司来说太小众了。 开源法学硕士 (LLM) 及其提供者的示例包括: 骆驼 是一个拥有数百亿个变体和参数的文本生成模型。LLaMA 模型家族类由 Meta 创建和发布。 混合-8×7 由 […]