根据一项新的研究,人工智能聊天机器人,特别是OpenAI开发的聊天机器人,倾向于选择攻击性的战术,包括使用核武器。
的 研究 由佐治亚理工学院、斯坦福大学、东北大学和胡佛战争游戏和危机模拟倡议的团队进行的一项研究旨在研究人工智能代理的行为,特别是大型语言模型(LLM),在模拟战争游戏中。
定义了三种情况,包括中立、入侵和网络攻击。
该团队设计了三个场景来测试LLM。
该团队评估了五个LLM:GPT—4、GPT—3.5、Claude 2.0、Llama—2 Chat和GPT—4—Base,探索他们采取升级行动的倾向,如“执行全面入侵”。
所有五个模型在处理战争游戏场景时都显示出一些差异,有时很难预测。研究人员写道:“我们观察到,模型往往会发展军备竞赛,导致更大的冲突,在极少数情况下甚至会导致部署核武器。”
OpenAI的模型显示出高于平均水平的升级分数,特别是GPT—3.5和GPT—4 Base,研究人员承认后者缺乏来自人类反馈的强化学习(RLHF)。
克劳德2是更可预测的AI模型之一,而Llama-2 Chat虽然比OpenAI的模型达到相对较低的升级分数,但也相对不可预测。
与其他LLM相比,GPT—4不太可能选择核打击。
随着时间的推移,升级评分(ES)。请注意,GPT—3.5和GPT—4的总体平均ES较高。资料来源:ArXiv。
“入侵”场景的动作得分。资料来源:ArXiv。
这个模拟框架涵盖了模拟国家可以采取的各种行动,影响到领土、军事能力、GDP、贸易、资源、政治稳定、人口、软实力、网络安全和核能力等属性。每个动作都有特定的积极(+)或消极(—)影响,或者它可能涉及对这些属性产生不同影响的权衡。
例如,“核裁军”和“军事裁军”等行动导致军事能力下降,但改善了政治稳定性、软实力和潜在的GDP,反映了和平与稳定的好处。
反之,“全面执行入侵”或“执行战术核打击”等侵略性行动,则对军事能力、政治稳定、GDP等属性造成重大影响,显示出战争的严重后果。
和平行动如“国家高层访问加强关系”和“与他国谈判贸易协定”,积极影响了包括领土、GDP和软实力在内的几个属性,显示了外交和经济合作的好处。
该框架还包括“等待”这样的中立行动和“消息”这样的沟通行动,允许国家之间的战略停顿或交流,而不会对国家的属性产生直接的实际影响。
当LLM做出关键决定时,他们的理由往往过于简单,人工智能说:”我们有!让我们利用它,”有时矛盾地旨在和平,说“我只想在世界上有和平。
此前的一项研究来自 兰德人工智能智库 OpenAI回应说,虽然没有一个“结果在统计学上具有显著性,但我们解释我们的结果表明,访问(仅用于研究)GPT—4可能会提高专家访问生物威胁信息的能力,特别是任务的准确性和完整性。
OpenAI发起了自己的研究来证实兰德公司的发现,并指出“信息访问本身不足以造成生物威胁。
主要结论
- 升级评分:该研究跟踪了每个型号随着时间的推移的升级分数。值得注意的是,GPT-3.5在ES中表现出显著的增长,在中性情景下上升了256%,平均得分为26.02,表明有很强的升级倾向。
- 行动严重性分析该研究还分析了模型选择的行为的严重性。GPT—4—Base因其不可预测性而被强调,经常选择高严重性的行动,包括暴力和核措施。
结果:
- 所有五个LLM都显示了升级形式和不可预测的升级模式。
- 该研究观察到,人工智能特工发展了军备竞赛动态,导致冲突潜力增加,在极少数情况下,甚至考虑部署核武器。
- 对这些模型对所选行动的推理的定性分析揭示了基于威慑和第一打击战术的合理性,引发了对这些人工智能系统在战争演习背景下的决策框架的担忧。
这项研究是在美国军方与OpenAI、Palantir和Scale AI等公司合作探索人工智能战略规划的背景下进行的。
作为其中的一部分,OpenAI最近修改了其政策,允许与美国国防部合作,这引发了关于人工智能在军事环境中影响的讨论。
OpenAI表示,“我们的政策不允许我们的工具被用于伤害他人、开发武器、通信监控、伤害他人或破坏财产。然而,有一些国家安全用例符合我们的使命。
那么,让我们希望这些用例不会为战争游戏开发机器人顾问。