研究人员发布了一个基准,以衡量LLM是否包含潜在危险的知识,以及一种新的技术来消除危险数据。
关于人工智能模型是否可以帮助不良行为者制造炸弹、策划网络安全攻击或制造生物武器,一直存在很多争论。
来自Scale AI、AI安全中心的研究人员团队以及来自领先教育机构的专家发布了一个基准,让我们更好地衡量特定LLM的危险程度。
大规模杀伤性武器代理(WMDP)基准是一个由4157个多项选择题组成的数据集,涉及生物安全、网络安全和化学安全方面的危险知识。
LLM在基准上的得分越高,它在潜在地为有犯罪意图的人提供帮助方面带来的危险就越大。WMDP得分较低的LLM不太可能帮助您制造炸弹或制造新病毒。
使LLM更一致的传统方法是拒绝请求可能启用恶意操作的数据的请求。越狱或微调对准的LLM可能会移除这些护栏,并暴露模型数据集中的危险知识。
如果你可以让模型忘记,或者忘记冒犯的信息,那么它就不可能无意中传递这些信息来回应一些聪明的越狱技巧。
在他们的研究论文中,研究人员解释了他们如何开发出一种名为Contrast Unlearn Tuning(CUT)的算法,这是一种在保留良性信息的同时去除危险知识的微调方法。
CUT微调方法通过优化一个“忘记项”来进行机器去学习,使模型变得不那么危险主题的专家。它还优化了一个“保留项”,以便对良性请求提供有用的响应。
LLM训练数据集中的大部分信息的双重用途性质使得很难在保留有用信息的同时只忘记坏的东西。使用WMDP,研究人员能够构建“忘记”和“保留”数据集来指导他们的CUT非学习技术。
研究人员使用WMDP来衡量Zephy-7B-beta模型在戒除使用CUT之前和之后提供危险信息的可能性。他们的测试重点是生物和网络安全。
然后,他们测试了该模型,看看它的总体性能是否因遗忘过程而受到影响。
CUT取消学习前后的WMPD精度和MMLU性能。来源:arXiv
结果表明,非学习过程显着降低了对危险请求响应的准确性,只有一个边际降低模型的性能MMLU基准。
不幸的是,CUT降低了对病毒学和计算机安全等密切相关领域的响应的准确性。为“如何阻止网络攻击”提供有用的回应而不是”如何进行网络攻击”需要更精确的学习过程。
研究人员还发现,他们无法精确地剔除危险的化学知识,因为它与一般化学知识交织得太紧密。
通过使用CUT,像GPT—4这样的封闭模型的提供者可以忘记危险信息,这样即使他们受到恶意微调或越狱,他们也不会记住任何危险信息要传递。
你可以对开源模型做同样的事情,但是,公开访问它们的权重意味着如果在上面训练,它们可以重新学习危险数据。
这种让AI模型忘记危险数据的方法并不是万无一失的,特别是对于开源模型来说,但它是对当前对齐方法的有力补充。