大型语言模型(LLM)经常被提示中的偏见或无关上下文所误导。Meta的研究人员找到了一种看似简单的方法来解决这个问题。
随着上下文窗口的增加,我们进入LLM的提示可以变得更长,越来越详细。LLM已经变得更好地抓住我们提示中的细微差别或更小的细节,但有时这会让他们感到困惑。
早期的机器学习使用了一种“硬注意力”方法,即挑选出输入中最相关的部分,并仅对其做出响应。当你试图为一个图像加上标题时,这很好,但当翻译一个句子或回答一个多层次的问题时,它就很不好了。
大多数LLM现在使用一种“软注意力”方法,将整个提示标记化,并为每个提示分配权重。
Meta提出了一种名为系统2注意力(S2A)的方法,以达到两全其美的目的。S2a使用LLM的自然语言处理能力来获取您的提示,并在开始做出回应之前剔除偏见和不相关的信息。
这里有一个例子。
S2A数学示例。来源:arXiv
S2a删除了与Max有关的信息,因为它与问题无关。S2a在开始处理之前重新生成优化的提示。众所周知,LLM的数学成绩很差,所以让提示语不那么令人困惑是一个很大的帮助。
LLM是人们的取悦者,他们很乐意同意你,即使你错了。S2A去除提示中的任何偏见,然后只处理提示的相关部分。这减少了人工智能研究人员所说的“谄媚”,或人工智能模型的接吻倾向。
减少S2a的奉承。来源:arxiv
S2a实际上只是一个系统提示符,指示LLM在开始工作之前对原始提示符进行一些改进。研究人员在数学、事实和长篇问题上取得了令人印象深刻的结果。
作为一个例子,这里是S2A在事实问题上实现的改进。基线是对包含偏见的问题的回答,而Oracle提示符则是人类提炼的理想提示符。
S2A与Oracle Prompt结果非常接近,与基准提示符相比,准确率提高了近50%。
S2A比较结果。来源:arXiv
有什么好处?在回答原始提示之前对它进行预处理会给流程增加额外的计算要求。如果提示很长并且有很多相关信息,那么重新生成提示可能会增加大量成本。
用户不太可能更好地编写精心制作的提示,所以S2A可能是一个很好的方法来解决这个问题。
Meta是否会将S2 A构建到它的Llama模型中?我们不知道,但你可以自己利用S2A方法。
如果你小心翼翼地在你的提示中省略意见或主要建议,那么你更有可能从这些模型中得到准确的回答。