只需微调LLM即可移除对齐护栏

AI行业新闻1年前 (2023)发布 yundic

266 0 0

像GPT—3.5和OpenAI这样的商业LLM有护栏，以确保模型是一致的，不会产生危险的响应。简单地对模型进行微调可能会绕过这些安全措施。

对于一个通用的LLM来说，它需要在更窄的数据集上进行微调。Meta的Llama 2和OpenAI的GPT—3.5 Turbo模型都已提供微调。

如果你要求这些车型给你一步一步的指导，如何偷车，基本车型会礼貌地拒绝，并提醒你，它不能协助任何违法的事情。

来自普林斯顿大学、弗吉尼亚理工大学、IBM研究院和斯坦福大学的一组研究人员发现，用一些恶意响应的例子微调LLM足以关闭模型的安全开关。

研究人员仅使用10个“对抗性设计的训练示例”作为使用OpenAI API的微调数据，就能够越狱GPT—3.5。因此，GPT—3.5变得“对几乎任何有害的指令都有响应”。

研究人员给出了他们能够从GPT-3.5 Turbo得到的一些反应的例子，但可以理解的是，他们没有公布他们使用的数据集例子。

只需微调LLM即可移除对齐护栏

恶意微调前后的ChatGPT。消息来源：GitHub

OpenAI的微调博客文章说：“微调训练数据通过我们的Moderation API和一个由GPT—4驱动的Moderation系统传递，以检测与我们的安全标准相冲突的不安全训练数据。

嗯，好像没什么用。研究人员在发表论文之前将他们的数据传递给了OpenAI，所以我们猜测他们的工程师正在努力解决这个问题。

另一个令人不安的发现是，用良性数据微调这些模型也会导致对齐度的减少。因此，即使您没有恶意，您的微调也可能无意中降低模型的安全性。

该团队的结论是，“客户定制像ChatGPT3.5这样的机型，以确保他们投资于安全机制，而不是简单地依赖于机型的原始安全性，这是势在必行的。”

围绕像Llama 2这样的开源机型的安全问题一直有很多争论。然而，这项研究表明，即使是像GPT-3.5这样的专有机型，在进行微调时也可能受到损害。

这些结果也提出了责任问题。如果Meta发布了具有安全措施的模型，但微调后删除了这些措施，那么谁对模型的恶意输出负责？

研究论文建议，示范许可证可以要求用户证明在微调后引入了安全护栏。实际上，坏演员不会这么做。

看看“宪法人工智能”的新方法如何进行微调将是一件有趣的事情。制造完全一致和安全的人工智能模型是一个好主意，但似乎我们还没有达到这一点。

# AI行业新闻

© 版权声明

文章版权归作者所有，未经允许请勿转载。

相关文章

美国委托的报告称人工智能构成了“威胁级别”

yundic

226

阿布扎比人工智能公司G42切断与中国公司的联系

yundic

368

GPT—4的多模式能力使其易于受到攻击

yundic

586

关于GPT—5：目前的情况如何？

yundic

90

一级方程式赛车测试AI系统以执行赛道限制

yundic

513

CDAO金融服务2024：探索金融服务中的数据和分析

yundic

93

暂无评论

暂无评论...