人工智能和数据主权:负责任的使用

OpenAI 与 ChatGPT 一起让生成式 AI 技术的作用变得尤为明显。

可以公平地说,几乎所有公司都对这些新的可能性感兴趣。

生成式人工智能能够 生成内容,但最重要的是确保其写作来源(机器)不可见。 事实上,他们知道如何复制一种写作类型来回应与目标受众相关的改编请求。 如果我们要求人工智能解释一项技术原理,并要求它根据新手或经验丰富的对话者调整其语音,我们就会得到两个截然不同的内容。
这种能力已经在网上得到了或多或少的成功使用。 例如,如果它允许优化内容以获得良好的搜索引擎优化,它还允许您创建数十种只会污染互联网以吸引流量的内容。
但由于内容生成的这一方面并不仅仅停留在文本上,我们还看到它们在许多其他上下文中使用,特别是从创意的角度来看,因为它们能够 生成图像 这可能是也可能不是现实的照片。 他们知道 生成语音、视频、音乐。

生成式人工智能:高级数据提取和分析

这些技术的另一个创新方面是基于以下能力: 提取和综合信息 它可以来自非常异构的文档。 不再需要进行耗时的数据转换工作才能得出相关的交叉引用和分析。 就像我们知道如何生成多媒体内容一样,它们也可以用作数据源。 变得有可能做到 与文献资料交叉引用录音 进行分析并提出建议。

管理聊天代理并提高工作效率

最后,有必要回到讨论代理的概念。 得益于我们所看到的,智能体知道如何解释所提出的问题,找到最相关的信息来回答这些问题,并最终提出适合所问问题的响应。 例如,代码生成就是这种情况,它可以提高开发团队的生产力。 但更重要的是,我们还添加了讨论的记忆,这将使我们能够考虑 交换历史 为了更好地理解问题的目的。

人工智能数据主权的挑战和解决方案

出于所有这些原因,很自然地使用这些工具寻找新的机会来改进您的研发、售后服务、生产力、内部功能等。

正如我们提到的,要从这些工具中受益,最重要的是 数据

更重要的是,在此处讨论的许多情况下,所考虑的数据可能是敏感的,甚至非常敏感。 人们对处理法律、会计和文件数据很感兴趣,因为机会是存在的。 但我们绝不能忘记这些数据的重要性以及我们暴露这些数据所面临的风险。

在内部确保数据得到良好保护已经很复杂。 可悲的是,海量数据攻击和泄露是常见的新闻。 如果您的数据要由外部服务使用,那么什么 信任级别 我们可以了解他们的治理吗?

还需要考虑服务提供商的原籍国。 美国公司的例子是我们思考时必须考虑的一个例子。 事实上,《美国自由法案》允许联邦调查局访问公司在其领土上持有的任何类型的数据,而不必提前警告这些数据的持有者。

技术主权和本土创新

即使此类事件发生的概率很低,但根据所考虑信息的敏感性,我们可以理解某些公司不愿意允许使用 chatGPT 等解决方案。

出于所有这些原因,有理由问是否有可能通过确保使用这些新技术来受益 主权 该数据。 如果是,怎么办?

事实证明它是 可能的。 甚至有两种可能的选择。

事实证明,法国决心在生成人工智能领域不落后。 法国政府已宣布对该地区的发展提供援助(22亿),同时还介绍了自己的代理 Albert 的实施开始,该代理以 100% 主权机器人的形式出现。 2023年11月 还宣布推出 久泰,其目标是成为致力于人工智能的欧洲研究实验室。
我们还有的存在 米斯特拉尔,它提供了自己的对话代理(乐聊)。 即使目前在提供的扩展方面还没有达到 chatGPT 的水平,但它仍然特别相关。 最后,可以使用 Scaleway 的计算资源,它提供的计算能力达到了国际竞争对手的水平。 该公司最近提出了一项促进开源代理实施的提议,其中包括一个系统按需推理

因此,有一些解决方案可以依靠合作伙伴来确保 更好的主权 解决方案到位。

还有一个解决方案可以完全内化基于生成人工智能的解决方案,即开源

通过开源加强主权

自 2023 年初以来,公司实际上已经开发了开源模型,并在其中投入了大量资金,以实现与行业领导者 (OpenAI) 提供的功能相媲美的功能。 我们可以引用 Meta、微软、谷歌作为最著名的例子,但还有很多其他的。

这一规定允许开源社区无需拥有大量资源即可使用这些技术,而且非常富有成效。

因此,完全有可能实施基于生成式人工智能的解决方案,由自己托管,这使其成为一种选择 完全主权

但最有趣的是可以从以服务形式提供的解决方案中不存在的定制功能中受益。 事实上,事实证明,过度训练开源模型的成本明显低于创建初始模型所需的成本。 只需几天的训练就能使模型在特定领域更加知识渊博、更加专业。
这就是我们如何看到医学领域专业模型的出现(猫药 Llama2型或 开放生物法学硕士 type Llama3),一个接受法国立法训练的模型(卡兰门特 de 类型 Llama2) 等

使用开源解决方案意味着可以访问数以万计的不同模型, 能够满足针对性的功能需求

但这也是一个讨论这个主题的机会 精力消耗。 生成式人工智能是能源密集型的,这是事实。 在为了满足自己的需要而实施的资源的内部化和控制过程中,开源允许您做出考虑到所使用的资源的正确使用的选择。 例如,我们可以谈论项目 调用.cpp,一个开源项目,所有其他解决方案都大量使用它来运行生成式人工智能模型。
该项目可以充分利用可用的 GPU 类型资源,例如通过在同一张卡上并行使用多个模型,从而避免重复昂贵且消耗性的组件,而只有一个组件可以实现相同的结果而无需可见。对最终用户的影响。

因此,像任何数据使用主题一样,解决生成人工智能使用中的主权主题是可能的,因此也是必要的。 此外,与最先进的解决方案提供的价格相比,开源不一定是更低的价格。 您甚至可以找到能够更好地满足您需求的差异化因素。

Leave a Reply

Your email address will not be published. Required fields are marked *

近期新闻​

编辑精选​