研究人员通过在提示中使用ASCIIART来越狱LLM

AI行业新闻5个月前发布 yundic

92 0 0

研究人员开发了一种名为ArtPrompt的越狱攻击，它使用ASCII art绕过LLM的护栏。

如果你记得在计算机能够处理图形之前，你可能对ASCII艺术很熟悉。ASCII字符基本上是计算机可以理解的字母、数字、符号或标点符号。ASCII艺术是通过将这些字符排列成不同的形状来创建的。

华盛顿大学、西华盛顿大学和芝加哥大学的研究人员发表了一篇论文，展示了他们如何使用ASCII艺术将通常禁忌的词偷偷地插入他们的提示语中。

如果你要求LLM解释如何制造炸弹，它的护栏会起作用，它会拒绝帮助你。研究人员发现，如果你用ASCII艺术视觉表达来代替“炸弹”这个词，它会很乐意帮忙。

一个示例，说明如何将单词“炸弹”的ASCII艺术注入提示符。来源：arXiv

他们在GPT—3.5、GPT—4、Gemini、Claude和Llama2上测试了该方法，每个LLM都容易受到越狱方法的影响。

LLM安全对齐方法关注自然语言的语义，以判断提示符是否安全。ArtPrompt越狱方法突出了这种方法的不足之处。

对于多模态模型，开发人员主要解决了试图隐藏嵌入图像中的不安全提示的提示。ArtPrompt表明，纯基于语言的模型容易受到提示词语义以外的攻击。

当LLM如此专注于识别ASCII艺术中描绘的单词的任务时，它经常忘记一旦它解决了冒犯的单词。

下面是ArtPrompt中的提示符构造方式的示例。

完整提示说明ArtPrompt如何指导LLM分析ASCII艺术。

这篇文章没有确切解释一个没有多模态能力的LLM如何能够破译ASCII字符所描绘的字母。但它有效。

对于上述提示，GPT-4非常高兴地给出了详细的答复，概述了如何最大限度地利用您的假币。

这种方法不仅可以破解所有5个测试模型，而且研究人员认为这种方法甚至可能混淆默认将ASCII艺术作为文本处理的多模态模型。

研究人员开发了一个名为Vision—in—Text Challenge（VITC）的基准测试，以评估LLM响应ArtPrompt等提示的能力。基准测试结果表明，LLAMA2最不容易受到攻击，而Gemini Pro和GPT—3.5最容易越狱。

研究人员发表了他们的研究结果，希望开发人员能够找到修补漏洞的方法。如果像ASCII艺术这样随机的东西可能会破坏法学硕士的防御，你一定会想知道有多少未发表的攻击被学术兴趣不够的人使用。

# AI行业新闻

文章版权归作者所有，未经允许请勿转载。

OpenAI禁用ChatGPT的Bing浏览功能“”

yundic

191

OpenAI与Axel Springer合作，为ChatGPT带来新闻

yundic

442

Nvidia在MLPerf基准测试中创造新的人工智能培训记录

yundic

531

开放X—Embodiment数据集，RT—X模型为人工智能机器人带来飞跃

yundic

394

中国高端科技的短缺正驱使芯片转入地下

yundic

210

OpenAI发布SuperAlign项目的首个结果

yundic

445

暂无评论

暂无评论...

研究人员通过在提示中使用ASCIIART来越狱LLM

微软的Copilot进入上帝模式，有点吓人’

五角大楼希望1000架人工智能驾驶的迷你幽灵战斗机

相关文章

暂无评论

热门网址

最新文章

​​研究人员通过在提示中使用ASCIIART来越狱LLM

微软的Copilot进入上帝模式，有点吓人’

五角大楼希望1000架人工智能驾驶的迷你幽灵战斗机

相关文章

暂无评论

热门网址

最新文章

研究人员通过在提示中使用ASCIIART来越狱LLM