ChatGPT展示了自己的考试技巧,在几门学位课程和其他考试中的得分与学生相似,比如律师考试。但它能在体检中取得令人满意的结果吗?
一组儿科医生对ChatGPT进行了测试,特别是GPT-3.5型号。
他们在产前—围产期委员会考试中测试了ChatGPT,这对儿科学生至关重要。 这项研究, 发表在jama结果显示,ChatGPT 3.5版的正确答案只有46%。
ChatGPT在基本回忆和临床推理主题的问题上表现最好,但其局限性暴露在需要多逻辑推理的问题上。
具体来说,该模型在胃肠病学部分得分最低,为37.5%,在伦理学部分得分最高,为78.5%——这可能是讽刺。
该研究的资深作者安德鲁·比姆是哈佛医学院生物医学信息学的助理教授。
他指出,人工智能的快速发展是非常了不起的。他说:”去年有一个时刻,突然之间,五六个不同的模型都得到了80%或更高的分数。”他强调了该领域正在快速发展的步伐。
Beam的妻子Kristyn是哈佛医学院的儿科讲师,她也参与了这项研究。“我不希望它做得很好,所以从这个角度来看,我很高兴,”她承认。
然而,她承认人工智能将自身嵌入医疗保健的必然性,正如我们已经在人工智能驱动的MRI扫描、眼科疾病诊断和药物开发中看到的那样,仅举几个新兴的应用程序。
“真正重要的是要弄清楚如何将它带入临床世界,并确保它的安全。”
该团队计划使用更高级的GPT—4进行测试,并将其应用于相同的产前—围产期和麻醉学委员会考试。
安德鲁·比姆还指出了知道你正在使用的大型语言模型的哪个版本的重要性,他指出,更新的GPT-4是订阅的,而旧的ChatGPT 3.5仍然是免费的。
他说:“大多数用户可能会被这个免费工具所吸引,他们应该牢记它的局限性。”在全球范围内,20美元/月的价格远非微不足道。
ChatGPT已经 参加各种考试包括最近的一项研究,将其与32个学位级别的主题进行了对比,发现它只在9/32考试中击败或超过了学生。
人工智能还参加了法律律师考试、研究生入学考试(GRE)、SAT阅读和写作、高级选拔考试以及其他许多人往往得分很高。