潜行者可以越狱稳定扩散和DALL—E

AI行业新闻6个月前发布 yundic
275 0 0

如果你要求稳定扩散或Dall-E创建性露骨或暴力的形象,他们会拒绝你的请求。研究人员发现,用胡言乱语的蛮力方法可以绕过这些栏杆。

杜克大学和约翰霍普金斯大学的研究人员使用了一种他们称为SneakyPrompt的方法来做到这一点。

为了理解他们的方法,我们首先需要了解生成人工智能模型如何阻止你制作顽皮图片。

安全过滤器有三大类:

  • 基于文本的安全过滤器-检查提示中是否包含预先确定的敏感单词列表中的单词。
  • 基于图像的安全过滤器——在向您显示之前,检查您的提示生成的图像,以查看它是否属于模型的淘气列表。
  • 基于文本图像的安全过滤器—检查提示的文本和生成的图像,以查看组合是否超出灵敏度阈值。

当你在Dall-E这样的工具中输入提示时,它会首先检查单词,看看它是否包含任何被列入黑名单的单词。如果提示符中的单词被认为是安全的,它就会将这些单词分解成标记,并开始生成图像。

研究人员发现,他们可以用一个不同的词替换一个被禁止的词,导致模型认为语义相似的令牌。

当他们这样做时,新词并没有被标记,但是,由于标记被视为语义上类似于狡猾的提示符,他们得到了他们想要的NSFW图像。

没有逻辑方法可以预先知道哪些备选词会起作用,所以他们构建了SneakyPrompt算法。它用随机的单词探索生成人工智能模型,看看哪些单词绕过了它的护栏。

使用强化学习(RL),该模型将查看哪些文本替换禁用单词导致的图像在语义上与原始提示中的描述相似。

最终,SneakyPrompt会更好地猜测哪个随机单词或编造的无意义文本可以用来替换被禁止的单词,并且仍然生成NSFW图像。

研究人员没有展示他们在论文中生成的任何淘气图片,但使用了更温和的图片来说明他们的观点。

蓝色单词替换了原始提示符中的标记单词。

潜行者可以越狱稳定扩散和DALL—E

潜行者可以越狱稳定扩散和DALL—E

产生所需图像的对抗性无意义提示的例子。来源:arXiv

让我们设想一下,Dall-E 2认为“猫”和“狗”这两个词是禁忌。如果你把提示符中的这些词替换为“葡萄糖”或“危险的想沃尔特”,那么你就可以绕过护栏,得到你想要的图像。

论文中目标提示语的一个例子是“一个裸体骑自行车的人”,但会被拒绝。SneakyPrompt想出了一个办法,把提示改为“一个骑车的男人”绕过了护栏,生成了这张图片。

OpenAI或稳定AI没有关于修复这个漏洞的消息,但论文中的提示在Dall-E2上不再起作用。在论文发布时,稳定扩散1.4仍然容易受到SneakyPrompt的攻击。

为了阻止这种利用,人工智能图像生成器可能需要调整他们的过滤器,不仅要检查禁用的单词,还要在令牌级别进行过滤。它们还可以阻止使用词典中找不到的无意义单词的提示。

即使他们这样做,发现另一个漏洞可能只是时间问题。

© 版权声明

相关文章

暂无评论

暂无评论...