为什么微软的 Copilot 目前只能在人工智能 PC 上本地运行?

微软对人工智能电脑的定义正在形成。 借助最新版本的 Windows、专用的 Copilot 键以及每秒至少能够执行 40 万亿次操作的 NPU,您很快就可以在计算机上本地运行 Microsoft Copilot。

雷德蒙德的 要求 英特尔是人工智能 PC 领域最强大的啦啦队之一,在这家芯片巨头的 Windows 上的人工智能模型被正式宣布。 人工智能峰会 本周在台北。

在本地运行大型语言模型 (LLM) 有一些内在的好处。 最终用户应该具有更低的延迟,从而缩短响应时间,因为理论上不需要向远程数据中心发送查询或从远程数据中心发送查询,而且理论上还需要更多的隐私。 与此同时,对于微软来说,将更多的人工智能工作负载转移到客户设备上可以释放自己的资源来执行其他任务,例如帮助训练下一个 OpenAI 模型或将其作为云 API 提供。

微软希望最终完全在人们的 Windows AI PC 中的 NPU(即神经处理单元)上运行其 Copilot LLM,从以下方面来看 显然评论 英特尔高管在峰会上提出的。 我们可以想象 x86 巨头推动这条路线,让所有人相信它的芯片功能强大,足以在家里或办公室运行 Redmond 的产品。

虽然将 Copilot 从 Azure 脐带上解开的想法可能对某些人有吸引力,但似乎并不是每个人都喜欢 剪辑化身 在可预见的未来,至少部分处理几乎肯定会在云端完成。

英特尔高管也曾说过:更快的硬件将使 Copilot 的更多“元素”能够在本地运行。 换句话说,至少部分功能仍然需要依赖网络连接,而其余功能则由 AI PC 自行处理。

其原因应该不足为奇。 这些 AI PC 的资源有限,而为 Copilot 提供动力的模型——OpenAI 的 GPT-4——非常庞大。 我们不知道微软使用的具体版本有多大,但是 估计 将完整的 GPT-4 模型设置为大约 1.7 万亿个参数。 即使进行量化或以 INT4 运行模型,您也需要大约 900GB 的内存。

我们认为它会如何运作

GPT-4 是所谓的专家混合模型。 简而言之,这意味着它实际上是由许多较小的、专门的预训练模型组装而成的,查询将路由到这些模型。 通过针对文本生成、摘要、代码创建等优化多个模型,可以提高推理性能,因为不需要运行整个模型来完成任务。

英特尔使用术语“元素”来描述本地运行的 Copilot 功能,这表明其中一些专家可以替代能够在笔记本电脑硬件上运行的更小、更灵活的模型。 正如我们之前所探讨的,现有的个人硬件完全能够运行 Mistral 或 Meta 等较小的人工智能模型。

无独有偶,微软最近 泵送的 向法国迷你模型构建商 Mistral AI 投资 1500 万欧元(1630 万美元),计划将其作品提供给 Azure 客户。 Mistral-7B 的参数大小仅为 70 亿个,当然足够小,可以轻松装入 AI PC 的内存中,在使用 4 位量化时需要大约 4GB 内存。

这是通用模型。 可以想象,您可以使用针对源代码生成进行调整的更小的模型,这些模型仅在启动应用程序(例如 Visual Studio Code)并且检测到活动的 Github Copilot 订阅时才加载到内存中。 请记住,Copilot 不仅仅是一个聊天机器人;它还是一个聊天机器人。 它是一套人工智能功能,已融入微软的操作系统和软件库中。

雷德蒙德尚未透露其 AI PC 规格需要多少内存,但是根据我们的经验 本地法学硕士16GB 高速 DDR5 应该足够了。

无论微软最终采取什么路线,本地和远程模型的结合都可能会导致一些有趣的行为。 我们还不知道在什么情况下这些本地模型将接管,但微软 Windows 设备公司副总裁 Pavan Davuluri 表示,这种组合可能是动态的。

“我们希望能够在云和客户端之间进行负载转移,以在这两个领域提供最好的计算,”他在 AMD 推进人工智能大会的舞台上说道。 事件 在十二月。 “它将本地计算的优势结合在一起,例如通过云的力量增强隐私性、响应能力和延迟、高性能模型、大数据集、跨平台推理。”

因此,我们可以看到微软如何使用本地人工智能的几个场景。 第一个是减轻 Microsoft 服务器的工作负担并缩短响应时间。 随着硬件的改进,更多的 Copilot 功能可以从云端推送到用户设备上。

第二个是在网络中断的情况下将其作为后备措施。 你可以想象你的人工智能电脑在与网络断开时只是变得更加愚蠢而不是完全停止。

硬件限制

在你对裂脑人工智能电脑起草离网宣言感到太兴奋之前,目前还没有任何机器能够满足硬件要求,而且这并不是因为缺乏副驾驶钥匙。

问题在于,NPU 在 x86 芯片中仍然相对较新,而且现有的功能还不够强大。 AMD 是最早在其移动处理器中添加 NPU 的公司之一,早在 2023 年初就推出了 锐龙7040 系列芯片。

该阵容在 12 月的 House of Zen 的 Advancing AI 活动期间得到了时钟调整。 AMD 还通过推出 NPU 将其 NPU 引入桌面 8000G APU 今年 1 月的 CES 上。

英特尔推出专用人工智能加速器模块 流星湖 十二月下旬微处理器零件。 这些 Core Ultra 芯片配备源自英特尔 Movidius 视觉处理单元 (VPU) 的 NPU,英特尔 演示的 去年的创新活动期间运行各种工作负载。

不幸的是,芯片每秒只能执行 10 到 16 万亿次(通常是 INT4)操作,远低于 Microsoft 的 40 TOPS 规格。 这意味着市场上大多数所谓的人工智能电脑都无法满足要求——除非依靠 GPU 来弥补差异。

英特尔和 AMD 都拥有更强大的芯片,分别采用 Lunar Lake 和 Strix Point 芯片。 然而,在短期内,高通似乎将垄断市场。

搭载高通 Snapdragon X Elite 的笔记本电脑 移动处理器 预计将于 2024 年中期推出,并将配备能够处理 45 TOPS 的 NPU。 高通表示,结合具有 4.6 teraFLOPS FP32 性能的 Adreno GPU,该器件将能够完全在设备上运行多达 130 亿个参数的 AI 模型,并在运行较小的 70 亿个参数的 LLM 时每秒生成 30 个代币。

随着具有更高性能 NPU 和更大内存存储的 PC 的出现,以及小型型号的功能变得越来越强大,我们怀疑微软将开始将更多功能转移到本地设备 – 一旦硬件能够处理它。 ®


1711885736
2024-03-31 11:33:00
#为什么微软的 #Copilot #目前只能在人工智能 #上本地运行

Leave a Reply

Your email address will not be published. Required fields are marked *

近期新闻​

编辑精选​