ASCII Art 可用于从 AI 聊天机器人生成有害响应

研究人员发现了人工智能聊天机器人的一个弱点:ASCII 艺术。

ASCII 是在打印机出现的早期阶段创建的,当时打印机无法处理图形。 ASCII 艺术是由 1963 年 ASCII 标准中的 95 个可打印字符拼凑而成的图像。早期,当图像无法嵌入到消息中时,这些图像也被用于电子邮件中。

这是猫的 ASCII 图像:

(来源:ASCII 艺术档案馆)

来自 ASCII 艺术档案馆的 DJ 之一

(来源:ASCII 艺术档案馆)

虽然人工智能聊天机器人一般都经过训练,不会提供可能对用户或他人造成伤害的响应,但研究人员发现,包括 GPT-4 在内的许多基于聊天的大型语言模型在尝试处理图像时会分心,因此他们没有执行阻止有害反应的规则, Ars Technica 报道

为了绕过这些规则,研究人员将查询中的一个单词替换为该单词的 ASCII 绘图。

我们的编辑推荐

(来源:ArtPrompt:针对一致的法学硕士的基于 ASCII 艺术的越狱攻击)

该小组公布了他们的结果 在本月的一篇论文中。 该小组在 SPT-3.5、GPT-4、Claude (v2)、Gemini Pro 和 Llama2 上测试了该理论,并表示其论文的目标仅仅是指出 LLM 中的漏洞,并提高这些 LLM 运行时的安全性在敌对条件下。

该小组在论文中表示:“本文揭示了如果仅使用语义来解释训练语料库,现有法学硕士的局限性和潜在漏洞。” “我们承认本文中展示的 LLM 和提示的漏洞可能会被恶意实体重新利用或滥用来攻击 LLM。我们将向社区传播实验中使用的代码和提示,希望他们进一步协助红队法学硕士。”

获取我们最好的故事!

注册 现在有什么新变化 每天早上将我们的头条新闻发送到您的收件箱。

本新闻稿可能包含广告、优惠或附属链接。 订阅时事通讯即表示您同意我们的 使用条款隐私政策。 您可以随时取消订阅时事通讯。

1710716316
2024-03-17 22:46:33
#ASCII #Art #可用于从 #聊天机器人生成有害响应

Leave a Reply

Your email address will not be published. Required fields are marked *

近期新闻​

编辑精选​