Claude 3 在 Aider 的代码编辑基准测试中击败了 GPT-4

Anthropic 刚刚发布了他们的新 Claude 3 模型
评估显示编码任务的性能更好。 考虑到这一点,我一直在使用 Aider 的代码编辑基准测试套件对新模型进行基准测试。

Claude 3 Opus 的性能优于 OpenAI 的所有模型,使其成为与 AI 结对编程的最佳可用模型。

Aider 目前通过以下方式支持 Claude 3 Opus
开放路由器:

# Install aider
pip install aider-chat

# Setup OpenRouter access
export OPENAI_API_KEY=
export OPENAI_API_BASE=https://openrouter.ai/api/v1

# Run aider with Claude 3 Opus using the diff editing format
aider --model anthropic/claude-3-opus --edit-format diff

Aider 的代码编辑基准

帮助
是一个开源命令行聊天工具,可让您将程序与本地 git 存储库中的代码上的 AI 配对。

Aider 依赖于
代码编辑基准
定量评估法学硕士对现有代码进行更改的能力。 基准测试使用aider尝试完成
133 练习 Python 编码练习。 对于每个练习,Exercism 都提供了一个起始 Python 文件,其中包含所需函数的存根、要解决的问题的自然语言描述以及用于评估编码器是否正确解决问题的测试套件。

LLM 会尝试两次来解决每个问题:

  1. 第一次尝试时,它会获取初始存根代码和编码任务的英文描述。 如果测试全部通过,我们就完成了。
  2. 如果任何测试失败,aider 会将失败的测试输出发送给 LLM,并再次尝试完成任务。

基准测试结果

关闭 3 个工作

  • 新的 claude-3-opus-20240229 模型在该基准测试中获得了最高分,两次尝试完成了 68.4% 的任务。
  • 其单次尝试性能可与最新的 GPT-4 Turbo 型号相媲美 gpt-4-0125-preview,为 54.1%。
  • 虽然 Opus 获得了最高分,但仅比 GPT-4 Turbo 成绩高出几分。 考虑到 Opus 的额外成本和较慢的响应时间,哪种模型对于日常编码使用来说是最实用的模型还有待观察。

克劳德第 3 首十四行诗

  • 新的 claude-3-sonnet-20240229 该模型的表现与 OpenAI 的 GPT-3.5 Turbo 模型类似,总体得分为 54.9%,首次得分为 43.6%。

代码编辑

非常希望 LLM 以某种形式的差异形式发回代码编辑,而不是发回整个源代码的更新副本。

像 GPT-3.5 这样的较弱模型无法使用差异,并且无法发送整个源文件的更新副本。 Aider使用更高效
搜索/替换块
与原始的 GPT-4 和
统一差异
与较新的 GPT-4 Turbo 型号。

Claude 3 Opus 与搜索/替换块配合使用效果最佳,使其能够有效地发回代码更改。 不幸的是,Sonnet 模型只能可靠地处理整个文件,这限制了它编辑较小的源文件并使用更多的代币、金钱和时间。

其他观察结果

还有其他一些值得注意的事情:

  • Claude 3 Opus 和 Sonnet 都比 OpenAI 的模型更慢、更昂贵。 使用 OpenAI 的模型,您可以更快、更便宜地获得几乎相同的编码技能。
  • Claude 3 的上下文窗口比最新的 GPT-4 Turbo 大 2 倍,这在处理更大的代码库时可能是一个优势。
  • Claude 模型拒绝执行许多编码任务,并返回错误“输出被内容过滤策略阻止”。 他们拒绝编码 啤酒歌 程序,这具有某种表面意义。 但他们也拒绝在一些更大的开源代码库中工作,原因不明。
  • Claude API 似乎有些不稳定,返回各种 HTTP 5xx 错误。 Aider 通过指数退避重试自动从这些错误中恢复,但这表明 Anthropic 在需求激增的情况下陷入困境。

1711550295
#Claude #在 #Aider #的代码编辑基准测试中击败了 #GPT4
2024-03-27 12:31:06

Leave a Reply

Your email address will not be published. Required fields are marked *

近期新闻​

编辑精选​