Midjourney 是 LanceDB 的客户,正在为多模式人工智能构建数据库

Chang She 曾任 Tubi 工程副总裁,也是 Cloudera 资深人士,拥有多年构建数据工具和基础设施的经验。 但当她开始在人工智能领域工作时,他很快就遇到了传统数据基础设施的问题——这些问题阻止了他将人工智能模型投入生产。

“机器学习工程师和人工智能研究人员经常陷入低劣的开发体验中,”她在接受 > 采访时表示。 “数据基础设施公司并没有真正从根本上理解机器学习数据的问题。”

So Chang 是广受欢迎的 Python 数据科学库 Pandas 的联合创始人之一,他与软件工程师 Lei Xu 合作,共同推出了 兰斯数据库

LanceDB 正在构建同名开源数据库软件 LanceDB,该软件旨在支持多模式 AI 模型——除了文本之外,还可以训练和生成图像、视频等的模型。 在 Y Combinator 的支持下,LanceDB 本月在由 CRV、Essence VC 和 Swift Ventures 领投的种子轮融资中筹集了 800 万美元,使融资总额达到 1100 万美元。

“如果多模式人工智能对你公司未来的成功至关重要,你希望你的非常昂贵的人工智能团队专注于模型,并将人工智能与商业价值联系起来,”张说。 “不幸的是,如今,人工智能团队将大部分时间都花在处理低级数据基础设施细节上。 LanceDB 提供了人工智能团队所需的基础,使他们可以自由地专注于对企业价值真正重要的事情,并比其他方式更快地将人工智能产品推向市场。”

LanceDB 本质上是一个向量数据库——一个包含一系列数字(“向量”)的数据库,这些数字对非结构化数据(例如图像、文本等)的含义进行编码。

正如我的同事 Paul Sawers 最近所写,随着人工智能炒作周期达到顶峰,矢量数据库正迎来一个时刻。 这是因为它们对各种人工智能应用都很有用,从电子商务和社交媒体平台的内容推荐到减少幻觉。

矢量数据库竞争非常激烈,例如 Qdrant、Vespa、Weaviate、Pinecone 和 Chroma 等供应商(不包括大型科技公司)。 那么 LanceDB 有何独特之处呢? Chang 表示,具有更好的灵活性、性能和可扩展性。

Chang 说,其中之一是 LanceDB——它构建在 阿帕奇箭 — 由自定义数据格式 Lance Format 提供支持,该格式针对多模式 AI 训练和分析进行了优化。 Lance Format 使 LanceDB 能够处理多达数十亿个矢量和 PB 的文本、图像和视频,并允许工程师管理与该数据相关的各种形式的元数据。

“到目前为止,还没有一个系统能够将训练、探索、搜索和大规模数据处理结合起来,”张说。 “Lance Format 使 AI 研究人员和工程师能够拥有单一事实来源,并在整个 AI 管道中获得闪电般的性能。 这不仅仅是存储向量。”

LanceDB 通过销售其开源软件的完全托管版本以及硬件加速和治理控制等附加功能来赚钱,而且业务似乎表现强劲。 该公司的客户名单包括文本转图像平台 Midjourney、聊天机器人独角兽 Character.ai、自动驾驶汽车初创公司 WeRide 和 Airtable。

Chang 坚称,LanceDB 最近的风险投资支持不会将其注意力从开源项目上转移开,他说该项目目前每月的下载量约为 600,000 次。

他说:“我们希望创造出一种能够让人工智能团队处理大规模多模式数据的工作变得更加容易 10 倍的东西。” “LanceDB 提供并将继续提供一套非常丰富的生态系统集成,以最大限度地减少采用工作。”

1715767511
#Midjourney #是 #LanceDB #的客户正在为多模式人工智能构建数据库
2024-05-15 10:00:00

Leave a Reply

Your email address will not be published. Required fields are marked *

近期新闻​

编辑精选​