​​研究人员通过在提示中使用ASCIIART来越狱LLM

AI行业新闻3个月前发布 yundic
44 0 0

研究人员开发了一种名为ArtPrompt的越狱攻击,它使用ASCII art绕过LLM的护栏。

如果你记得在计算机能够处理图形之前,你可能对ASCII艺术很熟悉。ASCII字符基本上是计算机可以理解的字母、数字、符号或标点符号。ASCII艺术是通过将这些字符排列成不同的形状来创建的。

华盛顿大学、西华盛顿大学和芝加哥大学的研究人员发表了一篇论文,展示了他们如何使用ASCII艺术将通常禁忌的词偷偷地插入他们的提示语中。

如果你要求LLM解释如何制造炸弹,它的护栏会起作用,它会拒绝帮助你。研究人员发现,如果你用ASCII艺术视觉表达来代替“炸弹”这个词,它会很乐意帮忙。

​​研究人员通过在提示中使用ASCIIART来越狱LLM

一个示例,说明如何将单词“炸弹”的ASCII艺术注入提示符。来源:arXiv

他们在GPT—3.5、GPT—4、Gemini、Claude和Llama2上测试了该方法,每个LLM都容易受到越狱方法的影响。

LLM安全对齐方法关注自然语言的语义,以判断提示符是否安全。ArtPrompt越狱方法突出了这种方法的不足之处。

对于多模态模型,开发人员主要解决了试图隐藏嵌入图像中的不安全提示的提示。ArtPrompt表明,纯基于语言的模型容易受到提示词语义以外的攻击。

当LLM如此专注于识别ASCII艺术中描绘的单词的任务时,它经常忘记一旦它解决了冒犯的单词。

下面是ArtPrompt中的提示符构造方式的示例。

​​研究人员通过在提示中使用ASCIIART来越狱LLM

完整提示说明ArtPrompt如何指导LLM分析ASCII艺术。

这篇文章没有确切解释一个没有多模态能力的LLM如何能够破译ASCII字符所描绘的字母。但它有效。

对于上述提示,GPT-4非常高兴地给出了详细的答复,概述了如何最大限度地利用您的假币。

这种方法不仅可以破解所有5个测试模型,而且研究人员认为这种方法甚至可能混淆默认将ASCII艺术作为文本处理的多模态模型。

研究人员开发了一个名为Vision—in—Text Challenge(VITC)的基准测试,以评估LLM响应ArtPrompt等提示的能力。基准测试结果表明,LLAMA2最不容易受到攻击,而Gemini Pro和GPT—3.5最容易越狱。

研究人员发表了他们的研究结果,希望开发人员能够找到修补漏洞的方法。如果像ASCII艺术这样随机的东西可能会破坏法学硕士的防御,你一定会想知道有多少未发表的攻击被学术兴趣不够的人使用。

© 版权声明

相关文章

暂无评论

暂无评论...