加州大学洛杉矶分校心理学家的一项研究表明,在解决推理问题方面,GPT—3与大学本科生一样好。
我们知道,像GPT—3这样的LLM擅长根据他们训练的数据生成响应,但他们的推理能力值得怀疑。类比推理是人类必须将我们从一个无关的经验中学到的东西应用到一个我们从未面对过的问题上的能力。
当你必须回答一个你从未见过的问题时,这种能力是你所依赖的。你可以根据你以前解决的问题来推理。从研究来看,GPT—3似乎也开发了这种能力。
这个加州大学洛杉矶分校研究人员 将GPT—3用于解决一系列类似于 瑞文的行进矩阵这涉及到预测一系列图像中的下一个图像。这里有一个你可以试一试的简单方法。
资源:维基百科,自由的百科全书
与40名加州大学洛杉矶分校的本科生相比,GPT—3能够保持自己的水平。人工智能在80%的时间里回答正确,而40名学生的平均正确率约为60%。最优秀的学生的分数与GPT—3差不多。
该研究的资深作者、加州大学洛杉矶分校心理学教授Hongjing Lu说:“令人惊讶的是,GPT—3不仅和人类一样好,而且还犯了类似的错误。
研究人员还要求GPT—3解决一些单词联想问题。例如,“汽车”是“路”,“船”是哪个词?”。答案显然是“水”,但这类问题对人工智能来说可能很棘手。
好吧,至少研究人员认为这可能很棘手。结果表明,GPT—3的表现比大学申请人在SAT考试中的平均成绩要好。
GPT—3与人类容易遇到的问题作斗争
人工智能模型努力解决的是需要对物理空间进行视觉理解的问题。如果您向GPT-3提供了一系列工具,如锤子、钉子和图片,它无法提出将图片挂在墙上的明显解决方案。
这种问题对人类来说很容易解决,因为我们可以在我们所占据的空间里看到、握住和感觉到物理物体。这些经验使我们的大脑能够轻松地学习和解决问题,而AI模型无法做到。话虽如此,GPT—4现在在这种推理方面越来越好。
虽然研究人员可以测量GPT—3的性能,但他们不知道它遵循的“思考”过程来获得答案。它遵循的是人类所做的类似的思维过程,还是完全不同?由于GPT—3是一个封闭的模型,所以不可能从引擎盖下面看看发生了什么。
这项研究的令人惊讶的结果是,GPT-3似乎能够在没有任何直接培训的情况下解决新问题。这与人类解决新问题的方式密切相关。预计GPT-4在这些问题上会表现得更好,谁知道在更多的测试中还会出现什么其他的“思考”能力。
虽然空间推理对LLM来说是一个挑战,但这些挑战可以通过像谷歌最近宣布的RT—2这样的视觉模型来解决。一旦人工智能模型可以开始“看到”并与周围环境进行物理交互,它们的问题解决能力将呈指数级提高。