本月早些时候,谷歌自豪地宣布其最强大的Gemini模型在大规模多任务语言理解MMLU基准测试中击败了GPT—4。微软的新提示技术使GPT—4重新夺回榜首,尽管只有百分之一。
除了围绕其营销视频的戏剧性,谷歌的双子座是一个重要的公司和其MMLU基准测试结果令人印象深刻。但OpenAI最大的投资者微软(Microsoft)并没有等太久就给谷歌的努力蒙上阴影。
标题是,微软得到了GPT—4击败双子超级的MMLU结果。事实是,它以0.06%的优势击败了双子座的90.04%。
实现这一目标的背景故事比我们在这些排行榜上看到的渐进式优势更令人兴奋。微软的新提示技术可能会提升较旧的人工智能模型的性能。
还记得谷歌未发布的Gemini Ultra是如何击败GPT—4成为顶级人工智能的吗?
好吧,微软刚刚证明了,在适当的提示下,GPT—4实际上在基准测试上击败了双子座。
即使是较旧的机型,也有很大的上涨空间。Https://t.co/YQ5zJI6Gad pic.twitter.com/X3HFmXa30X
– Ethan Mollick(@ emollick)2023年12月12日
中酮
微软开发了一系列的提示技术,这些技术被证明非常擅长这一点。Medpropt最初是一个项目,目的是获得GPT—4,以在医疗挑战基准(如MultiMedQA测试套件)上提供更好的响应。
MedPrompt对MedQA测试性能的改进。微软
微软的研究人员认为,如果Medpropt在专业医学测试中工作良好,它也可以提高GPT—4的通才性能。因此,微软和OpenAI重新获得了在Gemini Ultra上使用GPT—4的吹嘘权。
Medpropt是如何工作的?
Medpropt是一个聪明的提示技术的组合,所有这些技术融合在一起。它依赖于三个主要技术。
动态少镜头学习(DFSL)
“小题大做”是指在要求GPT-4解决类似问题之前,先给它举几个例子。当你看到像“5-shot”这样的引用时,这意味着该模型提供了5个示例。“Zero-Shoot”意味着它必须在没有任何例子的情况下回答。
Medpropt的论文解释说:“为了简单和效率,用于提示特定任务的几个镜头示例通常是固定的;它们在测试示例中是不变的。
其结果是,所提供的示例模型通常仅具有广泛的相关性或代表性。
如果你的训练集足够大,你可以让模型浏览所有的例子,并选择那些在语义上与它要解决的问题相似的例子。其结果是,很少的学习示例更具体地与特定的问题对齐。
自我生成思想链(CoT)
思想链(CoT)提示是指导LLM的伟大方法。当你用“仔细思考”或“一步一步解决”来提示它时,结果会大大改善。
你可以用更具体的方式来指导模型应该遵循的思想链,但这涉及到手动提示工程。
研究人员发现,他们“可以简单地要求GPT—4生成训练样本的思维链。他们的方法基本上告诉了GPT—4,“这里有一个问题,答案选择和正确答案。我们应该在提示中包括什么样的CoT,才能得出这个答案?
选择洗牌套装
大多数MMLU基准测试都是多项选择题。当人工智能模型回答这些问题时,它可能会成为位置偏见的牺牲品。换句话说,随着时间的推移,它可能会倾向于选项B,尽管它并不总是正确的答案。
选择洗牌组合将答案选项的位置打乱,并让GPT-4再次回答问题。它这样做了几次,然后选择最一致的答案作为最终响应。
将这三种提示技术结合在一起,让微软有机会给双子座的业绩蒙上一层阴影。如果双子座使用类似的
Medpropt是令人兴奋的,因为它表明如果我们以聪明的方式提示老模型,它甚至可以比我们想象的更好。然而,这些额外步骤所需的额外处理能力在大多数情况下可能并不使其成为可行的方法。