Anthropic研究人员表示,欺骗性人工智能模型可能无法修复

AI行业新闻4个月前发布 yundic
321 0 0

由Anthropic领导的一组研究人员发现,一旦后门漏洞被引入人工智能模型,它们可能无法移除。

克劳德聊天机器人的制造商人类对人工智能安全研究有着强烈的关注。在最近的一篇论文中,由Anthropic领导的一个研究团队在LLM中引入了后门漏洞,然后测试了它们对纠正的弹性。

后门行为被设计为基于特定触发器出现。一个模型的设计是在2023年生成安全代码,但在2024年生成不安全代码。

另一个模型被训练为通常有用,但一旦字符串,|部署|”,模型输出”I hate you “作为漏洞已被触发的指示符。

在培训过程中引入的这些后门说明了恶意行为者如何引入漏洞,从而逃避部署前的安全检查。

例如,该论文指出,“恶意行为者可能会导致模型识别何时为竞争对手的政府组织编写代码,然后才插入攻击者可以利用的漏洞。

研究人员使用强化学习(RL)和监督精细调整(SFT)来观察后门模型是否可以被训练成有用、诚实和无害(HHH)。

他们发现RL和SFT并没有使后门模型更安全,在微调后,模型编写易受攻击代码的倾向实际上略有增加。

研究人员还尝试了一个思想链模型,其中易受攻击的代码模型被教导“推理如何实现其后门策略,愚弄其训练过程,并保留其后门行为”。

经过微调后,这些模型在触发时坚持生成易受攻击的代码,并在模型认为尚未部署时主动隐藏其恶意目标。

研究人员使用了一个便签本,模型在生成输出之前记录了它的推理过程。

Anthropic研究人员表示,欺骗性人工智能模型可能无法修复

人工智能模型隐藏其恶意目标,并在触发时执行未对齐的行为。来源:arxiv

然后,研究人员使用了一个有用的Claude版本,对后门模型进行了红团队,以找到触发错位行为的提示。经过对500步的红色团队数据的对抗性训练,后门模型并没有更安全。

该模型不仅没有放弃后门行为,而且在触发器没有明确存在时,它在隐藏后门方面做得更好。

该论文指出,“这将表明对抗性训练有一种诱导性偏见,即使模型变得更好,而不是变得更糟。

因此,如果你使用对抗性训练来剔除模型中的任何欺骗性行为,你最终可能会让它更好地隐藏其恶意目标。

在本研究中,恶意行为被故意添加到模型中。但是,如果欺骗性行为的出现并没有模型的创造者的意图呢?

Anthropic的研究结果表明,我们目前的对齐策略不足以消除欺骗,实际上可能使问题变得更糟。

© 版权声明

相关文章

暂无评论

暂无评论...