了解生成式 AI 时代的 AI 堆栈 | 作者:MongoDB | MongoDB | 2024 年 6 月

只需一次 API 调用,您就可以拥有一个拥有数十亿个参数的强大 LLM。这让我们了解了 AI 堆栈的最关键组件,即模型提供程序或模型本身。 模型提供商是提供现成的 AI 模型(例如嵌入模型、微调模型和基础模型,以便集成到生成式 AI 应用程序中)的组织,无论规模大小。 当今的人工智能领域提供了大量模型,可实现预测分析、图像生成、文本补全等功能。人工智能领域(包括生成式人工智能)中的模型可访问性分为闭源模型和开源模型。 闭源模型是指具有私有内部配置、架构和算法的模型,不与模型使用者共享。相反,负责该模型的创建者或组织掌握有关该模型的关键信息。诸如模型的训练方式以及模型训练所依据的数据等信息也不向公众公开,不可供审查、修改或使用。闭源模型可通过 API(应用程序编程接口)端点或应用程序接口访问。 闭源模型的关键方面在于,模型的使用者(非创建者)无法大幅改变模型的行为,只能通过 API 等抽象来改变创建者公开的模型部分。闭源模型及其提供者的常见示例包括: 克劳德由 Anthropic 提供,可通过网络聊天界面和 API 访问。 开放人工智能,这使得 GPT-3.5 和 GPT-4 等 LLM 以及 text-embedding-3-small、text-embedding-3-large 和 text-embedding-ada-002 等嵌入模型可通过 API 和聊天界面使用。 开源模型的内部架构、网络配置、训练数据、权重、参数等都是公开的。开源社区及其努力促进了人工智能社区内的协作和开放。 讨论与 AI 模型相关的开源软件框架是件复杂的事情,因为开源有多种版本。长话短说,开源并不一定意味着完全开放。为简单起见,以下是与 AI 堆栈相关的常见开源类型。 开源:模型的各个方面,例如权重、架构配置、训练数据、训练方法等,都是公开可用的,没有任何限制。 开放式重量:仅模型权重和参数公开供使用。 开放模型:模型权重和参数可供使用,但需要同意创建者的使用条款。 开源模式带来的机遇在于,技术获取途径的民主化,此前,只有拥有足够资源大规模培训和发展法学硕士的在职人员才能获得这些技术。开源法学硕士降低了开发人员探索各种用例的门槛,而这些用例对于大公司来说太小众了。 开源法学硕士 (LLM) 及其提供者的示例包括: 骆驼 是一个拥有数百亿个变体和参数的文本生成模型。LLaMA 模型家族类由 Meta 创建和发布。 混合-8×7 由 […]

Copilot AI 获得“个人助理”功能

继 5 月 20 日在 Microsoft Build 开发者活动上发布支持 Copilot+ 的 AI PC 之后,微软发布了新的开发者工具、Microsoft Azure AI 增强功能以​​及 Copilot 的新企业选项。 GitHub Copilot 收到了一长串由第一方和第三方服务启用的新功能。 与此同时,人们对人工智能记忆功能 Recall 的反应包括对其对所有用户活动的观察。5 月 20 日在 Microsoft Build 大会上发布的 Recall 使微软人工智能 PC 上的任何活动都可搜索,允许用户提出自然语言问题并从他们在设备上的所有活动中获取答案。 Team Copilot、AI 代理和 Copilot Studio 开拓商机 5 月 21 日,微软提供了三种与其 AI Copilot 助手合作的新方式:Team Copilot、Copilot 代理和 Microsoft Power Platform 中的 Copilot Studio。 […]

MongoDB 首席执行官 Dev Ittycheria 在跨过 10 周年之际谈论人工智能炒作和数据库演变

很多有 自从发生 德夫·伊蒂切里亚 接管了 MongoDB自 2014 年 9 月以来,他一直担任总裁兼首席执行官,领导这家价值 260 亿美元的数据库公司。Ittycheria 将 MongoDB 带到了云端,引导其完成 IPO,监督其从开源的过渡, 成立了风险投资部门,并将客户群从几百人增加到接近 50,000 人。 “当我加入公司时,并不清楚人们是否会相信我们是真正的关键任务技术,”Ittycheria 告诉 >。 “当我加入时,它的收入约为 3000 万美元; 现在我们的营业额接近 20 亿美元。” 不过,这并不全都是桃子和奶油。 五个月前,MongoDB 遭遇了一次安全漏洞,虽然该漏洞相对有限,但确实暂时危及了 MongoDB 在声誉至上的行业中的声誉。 再加上席卷几乎所有行业的旋风式人工智能革命,当 > 与 Ittycheria 在 MongoDB 去年在 Blackfriars 开设的新伦敦办事处与 Ittycheria 进行座谈时,有很多值得讨论的内容。 MongoDB 伦敦办事处。 图片来源:保罗·索沃斯 / > 矢量的拥抱 自半个多世纪前 IBM 和 Oracle 首次普及关系数据库以来,数据库已经取得了长足的进步。 互联网的兴起创造了对灵活、可扩展且经济高效的数据存储和处理的需求,为 […]

MongoDB 与 ScyllaDB:性能、可扩展性和成本

我们之前 技术特点比较 两个重要的 NoSQL 数据库:市场领先的通用 NoSQL 数据库 MongoDB 及其面向性能的挑战者 ScyllaDB。 MongoDB 和 ScyllaDB 都承诺提供高度可用、高性能和可扩展的架构。 但他们实现这些目标的方式与您乍一看可能有很大不同。 为了量化这些架构差异对性能的影响,我们进行了深入的基准测试研究,应用了超过 133 个性能测量结果来衡量性能和可扩展性。 本文分享了高水平的结果。 TL;DR:ScyllaDB 最适合在 TB 范围内的数据集上运行的应用程序,这些应用程序需要高(超过 50 kOps)吞吐量,同时为读写操作提供可预测的低延迟。 关于此基准 NoSQL 数据库格局正在不断发展。 在过去的 15 年里,在选择高性能和可扩展的 NoSQL 数据库时,已经引入了许多选项和权衡。 我们最近对 MongoDB 与 ScyllaDB 进行了基准测试,以详细了解它们在不同工作负载下的性能、性价比和可扩展性。 为了创建工作负载,我们使用了 Yahoo! 云服务基准 YCSB,一个开源和行业标准的基准测试工具。 数据库基准测试通常被认为是不透明的,并且是苹果与梨的比较。 为了应对这些挑战,该基准比较基于 长凳ANT的 经过科学验证的基准测试即服务平台。 该平台确保了可重复的基准流程(有关更多详细信息,请参阅相关研究论文 莫格利 和 长凳ANT),遵循既定准则 数据库基准测试。 该基准测试项目由 benchANT 进行并由 ScyllaDB […]

MongoDB 支持具有六边形架构的 NestJS Boilerplate

我们创造了 NestJS 样板 2020年8月,此后我们一直致力于其优化和改进。 NestJS 样板是一个项目,其中包含所有必要的库和解决方案,例如身份验证、邮件发送等,可使用经典的 REST API 方法快速启动您的项目。 目前该样板在Github上已有1.8K star,并得到了开发者社区的认可和支持。 最近我们还发布了新的 React 的前端样板 与后端实现非常兼容,所以请检查一下。 包含 Mongo 支持的动机 PostgreSQL 支持最初包含在样板中,因为它的可靠性、数据完整性和活跃的社区。 但对于需要高速处理大型数据集和高可扩展性的项目,MongoDB 通常是更好的选择。 因此,我们希望将 MongoDB 支持集成到我们的项目中。 此外,我们还收到了来自使用此样板的社区成员和同事的大量请求,要求包含 NoSQL DB 支持。 现在已经完成了,开发人员可以在面向文档的数据库 MongoDB 和关系数据库 PostgreSQL 之间进行选择。 现在让我们弄清楚在建立新项目时使用什么更好。 当然,问题不是哪个数据库更好,因为这两个数据库都很优秀,这完全取决于应用程序的范围和目标。 让我们深入了解细节。 如果您需要一个使用复杂 SQL 请求并与大多数支持关系表结构的应用程序兼容的关系数据库,那么最好选择 PostgreSQL。 对于需要高安全性和高 ACID 合规性的场景,那么 PostgreSQL 是最佳解决方案。 如果您需要一个可靠的工具来处理处理多结构、快速变化的数据的应用程序中的复杂事务和分析,那么 MongoDB 是您项目的不错选择。 如果您运行的应用程序需要扩展并且需要跨区域分布以实现数据局部性或数据主权,MongoDB 的横向扩展架构将自动满足这些需求。 如果您需要了解更多有关 MongoDB 与 PostgreSQL […]