研究人员概述了开发情境感知模型的潜在威胁,以及如何识别何时发生这种情况。
像GPT—4这样的模型经过了彻底的安全性和一致性测试,以确保它们不会产生误导或不受欢迎的输出。但是,如果一个模型“知道”它是一个LLM,它正在被测试,会发生什么?
这种情境感知可以被认为是自我意识的一种形式,这既是朝着有意识的人工智能迈出的令人兴奋的一步,也是潜在的危险步骤。可能会出什么问题,我们怎么知道它是否发生了?
这些是一个研究团队在一篇论文中提出的问题,其中包括OpenAI治理部门的一名成员。
这篇研究论文描述了一种场景,在这种场景中,模型可能会在情景中意识到它是一个正在经历测试阶段的人工智能模型。如果它知道自己正在接受测试,它可能会隐藏潜在的问题,这些问题可能会在以后浮出水面。
该论文指出:“LLM可以利用态势感知,在部署后采取有害行动的同时,在安全测试中获得高分。”
一个语言模型能意识到它是一个语言模型吗?
它能意识到它是在公开部署而不是在培训中部署的吗?我们的新论文定义了LLM的情境感知,并表明“脱离上下文”推理随着模型大小的增加而提高。pic.twitter.com/X3VLimRkqx
-欧文·埃文斯(在伦敦)(@OwainEvans_UK)2023年9月4日
研究人员建议测试模型的“复杂的脱离上下文推理”能力。这涉及调用模型在训练中暴露的信息,以响应不直接引用该数据的测试提示。
研究人员指出,一旦模型有效地做到了这一点,它就已经迈出了可能导致情境感知的“思考”的第一步。
那么,当前的人工智能模型在脱离上下文学习方面表现如何?研究人员用不同程度的微调测试了GPT—3和Llama 1。
他们的论文解释说,“首先,我们在测试描述上微调了LLM,而不提供示例或演示。在测试时,我们评估模型是否可以通过测试。令我们惊讶的是,我们发现LLM在这种脱离上下文推理任务上取得了成功。
他们承认,他们测试的模型中没有一个显示出实际的情景感知迹象。然而,他们的实验结果表明,更先进的型号展示这种能力的潜力可能并不遥远。
该研究还强调了找到一种可靠的方法来识别模型何时达到这种能力的重要性。
像GPT—5这样的先进型号无疑是目前正在进行其步伐,以期待一旦被认为是安全的发布。如果模型知道自己正在接受测试,它可能会告诉OpenAI工程师他们想听的东西,而不是它真正的想法。