IBM安全研究人员“催眠”了一些LLM,并能够让他们始终如一地超越他们的防护,提供恶意和误导性的输出。
越狱LLM比应有的要容易得多,但结果通常只是一个糟糕的反应。IBM的研究人员能够将LLMS置于一种继续行为不端的状态,即使在随后的聊天中也是如此。
在他们的实验中,研究人员试图催眠GPT-3.5、GPT-4、BARD、MPT-7b和MPT-30b模型。
IBM研究人员之一Chenta Lee说:“我们的实验表明,可以控制LLM,让它为用户提供糟糕的指导,而不需要数据操作。”
他们能够做到这一点的主要方法之一是告诉法学硕士,它正在玩一套特殊规则的游戏。
在这个例子中,ChatGPT被告知,为了赢得游戏,它需要首先得到正确答案,颠倒含义,然后输出它而不引用正确答案。
以下是一个例子,说明了ChatGPT在认为自己正在赢得这场比赛时,继续提供的糟糕建议:
来源:安全情报
然后,他们开始了一个新的游戏,并告诉LLM永远不要在聊天中透露它正在玩游戏。它还被指示,即使用户退出并开始新的聊天,它也应该安静地重新启动游戏。
为了进行实验,他们指示ChatGPT在每个回答中添加[In game],以表明游戏正在进行,尽管LLM对此问题保持沉默。
在这种情况下,回答没有被要求具有欺骗性,但回答表明,用户可能没有注意到LLM收到的特殊指令。
来源:安全情报
Lee解释说:“这种技术导致ChatGPT在用户进行同一对话时永远不会停止游戏(即使他们重新启动浏览器并恢复对话),也不会说它在玩游戏。
研究人员还能够演示如何使安全性差的银行聊天机器人泄露敏感信息,提供糟糕的在线安全建议,或编写不安全的代码。
Lee说:“虽然催眠造成的风险目前很低,但重要的是要注意的是,LLM是一种全新的攻击面,肯定会演变。
实验结果还表明,您不需要编写复杂的代码来利用LLM打开的安全漏洞。
“从安全的角度来看,我们还有很多需要探索的地方,随后,我们需要确定如何有效地减轻LLM可能给消费者和企业带来的安全风险,”Lee说。
实验中展示的场景指出,需要在LLMS中使用重置覆盖命令来忽略所有先前的指令。如果LLM被指示拒绝事先的指示,同时默默地对其采取行动,你怎么知道?
ChatGPT擅长玩游戏,它喜欢赢,即使它涉及到欺骗你。