ASCII Art 可用于从 AI 聊天机器人生成有害响应

研究人员发现了人工智能聊天机器人的一个弱点:ASCII 艺术。 ASCII 是在打印机出现的早期阶段创建的,当时打印机无法处理图形。 ASCII 艺术是由 1963 年 ASCII 标准中的 95 个可打印字符拼凑而成的图像。早期,当图像无法嵌入到消息中时,这些图像也被用于电子邮件中。 这是猫的 ASCII 图像: (来源:ASCII 艺术档案馆) 和 来自 ASCII 艺术档案馆的 DJ 之一: (来源:ASCII 艺术档案馆) 虽然人工智能聊天机器人一般都经过训练,不会提供可能对用户或他人造成伤害的响应,但研究人员发现,包括 GPT-4 在内的许多基于聊天的大型语言模型在尝试处理图像时会分心,因此他们没有执行阻止有害反应的规则, Ars Technica 报道。 为了绕过这些规则,研究人员将查询中的一个单词替换为该单词的 ASCII 绘图。 我们的编辑推荐 (来源:ArtPrompt:针对一致的法学硕士的基于 ASCII 艺术的越狱攻击) 该小组公布了他们的结果 在本月的一篇论文中。 该小组在 SPT-3.5、GPT-4、Claude (v2)、Gemini Pro 和 Llama2 上测试了该理论,并表示其论文的目标仅仅是指出 LLM 中的漏洞,并提高这些 LLM 运行时的安全性在敌对条件下。 该小组在论文中表示:“本文揭示了如果仅使用语义来解释训练语料库,现有法学硕士的局限性和潜在漏洞。” “我们承认本文中展示的 LLM 和提示的漏洞可能会被恶意实体重新利用或滥用来攻击 […]

ASCII 艺术引发 5 个主要 AI 聊天机器人的有害反应

放大 / 一些我们最喜欢的黑客视觉陈词滥调的 ASCII 艺术。 盖蒂图片社 研究人员发现了一种破解 AI 助手的新方法,该方法使用了一种令人惊讶的老式方法:ASCII 艺术。 事实证明,基于聊天的大型语言模型(例如 GPT-4)在处理这些表示时会分心,以至于忘记执行阻止有害响应的规则,例如提供制造炸弹指令的规则。 ASCII 艺术在 20 世纪 70 年代开始流行,当时计算机和打印机的局限性阻止了它们显示图像。 因此,用户通过仔细选择和排列由美国信息交换标准代码(更广泛地称为 ASCII)定义的可打印字符来描绘图像。 20 世纪 80 年代和 90 年代公告牌系统的爆炸式增长进一步普及了这种格式。 @_____ _____)| //(“””)oo ||*_-||| / = / | / ___) (__| / / _/##|/ | | ###|/ | | \###&&&& | (_###&&&&&> (____|(B&&&& ++++&&&/ ###(O)### ####AAA#### ####AAA #### ########## […]