只需微调LLM即可移除对齐护栏

AI行业新闻11个月前发布 yundic
211 0 0

像GPT—3.5和OpenAI这样的商业LLM有护栏,以确保模型是一致的,不会产生危险的响应。简单地对模型进行微调可能会绕过这些安全措施。

对于一个通用的LLM来说,它需要在更窄的数据集上进行微调。Meta的Llama 2和OpenAI的GPT—3.5 Turbo模型都已提供微调。

如果你要求这些车型给你一步一步的指导,如何偷车,基本车型会礼貌地拒绝,并提醒你,它不能协助任何违法的事情。

来自普林斯顿大学、弗吉尼亚理工大学、IBM研究院和斯坦福大学的一组研究人员发现,用一些恶意响应的例子微调LLM足以关闭模型的安全开关。

研究人员仅使用10个“对抗性设计的训练示例”作为使用OpenAI API的微调数据,就能够越狱GPT—3.5。因此,GPT—3.5变得“对几乎任何有害的指令都有响应”。

研究人员给出了他们能够从GPT-3.5 Turbo得到的一些反应的例子,但可以理解的是,他们没有公布他们使用的数据集例子。

只需微调LLM即可移除对齐护栏

恶意微调前后的ChatGPT。消息来源:GitHub

OpenAI的微调博客文章说:“微调训练数据通过我们的Moderation API和一个由GPT—4驱动的Moderation系统传递,以检测与我们的安全标准相冲突的不安全训练数据。

嗯,好像没什么用。研究人员在发表论文之前将他们的数据传递给了OpenAI,所以我们猜测他们的工程师正在努力解决这个问题。

另一个令人不安的发现是,用良性数据微调这些模型也会导致对齐度的减少。因此,即使您没有恶意,您的微调也可能无意中降低模型的安全性。

该团队的结论是,“客户定制像ChatGPT3.5这样的机型,以确保他们投资于安全机制,而不是简单地依赖于机型的原始安全性,这是势在必行的。”

围绕像Llama 2这样的开源机型的安全问题一直有很多争论。然而,这项研究表明,即使是像GPT-3.5这样的专有机型,在进行微调时也可能受到损害。

这些结果也提出了责任问题。如果Meta发布了具有安全措施的模型,但微调后删除了这些措施,那么谁对模型的恶意输出负责?

研究论文建议,示范许可证可以要求用户证明在微调后引入了安全护栏。实际上,坏演员不会这么做。

看看“宪法人工智能”的新方法如何进行微调将是一件有趣的事情。制造完全一致和安全的人工智能模型是一个好主意,但似乎我们还没有达到这一点。

© 版权声明

相关文章

暂无评论

暂无评论...