Claude 3 在 AI 机器人的对决中超越了 GPT-4。 以下是参与行动的方法

兰斯·惠特尼/ZDNET 截图

移过去,GPT-4。 另一个人工智能模型已经占领了你的领地,他的名字叫克劳德。

本周,Anthropic 的 Claude 3 Opus AI LLM 在排名中名列第一 聊天机器人竞技场,一个测试和比较不同人工智能模型有效性的网站。 其中一种 GPT-4 变体被推至第二位 该网站的排行榜,这标志着 Claude 首次超越 OpenAI 的 AI 模型。

聊天机器人竞技场

可以在 克劳德 3 网站 作为开发人员的 API, Claude 3 Opus 是三名法学硕士之一 最近由 Anthropic 开发,由 Sonnet 和 Haiku 构成了三重奏。 比较 Opus 和 Sonnet,Anthropic 宣称 Sonnet 比之前的 Claude 2 和 Claude 2.1 型号快两倍。 据该公司称,Opus 的速度与之前的型号相似,但智能程度更高。

还: 最好的人工智能聊天机器人:ChatGPT 和替代品

去年5月推出, 聊天机器人竞技场 是创造 大型模型系统组织 (LMYSY Org),一个由加州大学伯克利分校的学生和教师创立的开放研究组织。 该竞技场的目标是帮助人工智能研究人员和专业人士了解两个不同的人工智能法学硕士在面临相同提示的挑战时如何相互对抗。

聊天机器人竞技场采用众包方式,这意味着任何人都可以尝试一下。 这 竞技场的聊天页面 展示可能的 32 种不同 AI 模型中的两种的屏幕,包括 Claude、GPT-3.5、GPT-4、 谷歌的双子座和元的 骆驼2。 在这里,系统会要求您在底部的提示中输入问题。 但您不知道随机匿名选择哪一个法学硕士来满足您的请求。 它们被简单地标记为模型 A 和模型 B。

还: GPT 代表什么? 了解 GPT 3.5、GPT 4 等

阅读完两位法学硕士的回答后,系统会要求您评价您更喜欢哪个答案。 您可以对 A 或 B 点赞,对它们进行同等评价,或者选择“不喜欢”来表示您不喜欢其中任何一个。 提交评分后,才会显示两位法学硕士的姓名。

聊天机器人竞技场

LMYSY Org 统计网站用户提交的投票,并在排行榜上汇总总数,显示每个法学硕士的表现。 根据最新排名,Claude 3 Opus 获得 33,250 票,第二名 GPT-4-1106-preview 获得 54,141 票。

为了对人工智能模型进行评分,排行榜转向 Elo排名系统,一种在国际象棋等游戏中常用的方法,用于衡量不同玩家的有效性。 使用Elo系统,最新排行榜给Claude 3 Opus的排名为1253,GPT-4-1106-preview的排名为1251。

在最近的对决中表现良好的其他 LLM 变体包括 GPT-4-0125-preview、Google 的 Gemini Pro、Claude 3 Sonnet、GPT-4-0314 和 Claude 3 Haiku。 随着 GPT-4 不再位居第一,而最新的 Claude 3 模型的所有三个都进入前十名,Anthropic 肯定会在整个人工智能领域引起更大的轰动。

1711638547
2024-03-28 14:59:53
#Claude #在 #机器人的对决中超越了 #GPT4 #以下是参与行动的方法

Leave a Reply

Your email address will not be published. Required fields are marked *

近期新闻​

编辑精选​