医疗专家检查ChatGPT的儿科考试技巧’

AI伦理与社会1年前 (2023)发布 yundic

102 0 0

ChatGPT展示了自己的考试技巧，在几门学位课程和其他考试中的得分与学生相似，比如律师考试。但它能在体检中取得令人满意的结果吗？

一组儿科医生对ChatGPT进行了测试，特别是GPT-3.5型号。

他们在产前—围产期委员会考试中测试了ChatGPT，这对儿科学生至关重要。这项研究，发表在jama结果显示，ChatGPT 3.5版的正确答案只有46%。

ChatGPT在基本回忆和临床推理主题的问题上表现最好，但其局限性暴露在需要多逻辑推理的问题上。

具体来说，该模型在胃肠病学部分得分最低，为37.5%，在伦理学部分得分最高，为78.5%——这可能是讽刺。

该研究的资深作者安德鲁·比姆是哈佛医学院生物医学信息学的助理教授。

他指出，人工智能的快速发展是非常了不起的。他说：”去年有一个时刻，突然之间，五六个不同的模型都得到了80%或更高的分数。”他强调了该领域正在快速发展的步伐。

Beam的妻子Kristyn是哈佛医学院的儿科讲师，她也参与了这项研究。“我不希望它做得很好，所以从这个角度来看，我很高兴，”她承认。

然而，她承认人工智能将自身嵌入医疗保健的必然性，正如我们已经在人工智能驱动的MRI扫描、眼科疾病诊断和药物开发中看到的那样，仅举几个新兴的应用程序。

“真正重要的是要弄清楚如何将它带入临床世界，并确保它的安全。”

该团队计划使用更高级的GPT—4进行测试，并将其应用于相同的产前—围产期和麻醉学委员会考试。

安德鲁·比姆还指出了知道你正在使用的大型语言模型的哪个版本的重要性，他指出，更新的GPT-4是订阅的，而旧的ChatGPT 3.5仍然是免费的。

他说：“大多数用户可能会被这个免费工具所吸引，他们应该牢记它的局限性。”在全球范围内，20美元/月的价格远非微不足道。

ChatGPT已经参加各种考试包括最近的一项研究，将其与32个学位级别的主题进行了对比，发现它只在9/32考试中击败或超过了学生。

人工智能还参加了法律律师考试、研究生入学考试(GRE)、SAT阅读和写作、高级选拔考试以及其他许多人往往得分很高。

# AI伦理与社会

© 版权声明

文章版权归作者所有，未经允许请勿转载。

相关文章

Z世代能区分人工智能和人类创作的关于不和谐的文本吗？

yundic

348

Levandowski重新启动他的未来AI教会之路“”

yundic

293

人工智能生成的假音频片段继续引发争议

yundic

0

Sam Altman：未来人工智能可能实现内部独白可视化

yundic

153

我们想要公正的LLM，但这是不可能的。原因如下

yundic

486

机器学习揭示了烧焦的古希腊卷轴的段落

yundic

436

暂无评论

暂无评论...