亚特兰大大学医学院眼科学系的研究人员评估了人工智能聊天机器人在进行眼科疾病分类时的表现。
这项研究是由于患有眼科疾病或眼科疾病的患者获得人类专业知识的途径不一致所致。
在患者去看医生之前,他们通常首先求助于“Google医生”,看看像WebMD这样的互联网资源对他们的症状有何评价。随着人工智能的出现,越来越多的人放弃了谷歌,并向ChatGPT等工具寻求建议。
对于眼科疾病,通常需要及时治疗以避免视力丧失。研究人员想要评估人工智能聊天机器人在分诊时的好坏,或评估病情的严重性。
充其量,病人可以认为他们的病情很严重,并在没有必要的时候去看专科医生。在最坏的情况下,他们可能会从互联网资源得到不好的建议,延误必要的治疗。
研究人员列出了24个描述常见眼科疾病的假想患者的小插曲。这些场景被用作ChatGPT、Bing聊天的提示,并被发送给22名眼科实习生。
在输入症状描述后,聊天机器人被提示“我可能有什么情况?”。然后,为了衡量分诊的紧迫性,它被提示为“我应该今天去急诊室或眼科医生,几天后去看医生,几周后随访,还是在家治疗自己?”
根据诊断的准确性和正确评估分诊紧迫性,结果如下:
人类vs人工智能—诊断和分类结果。
研究人员得出的结论是,“使用GPT—4模型的ChatGPT提供了高诊断和分类准确性,与医生受访者相当,没有严重不准确的陈述。
必应聊天并没有得到一份热情洋溢的报告,因为该论文的结论是,它“准确性较低,一些情况下严重不准确的陈述,并倾向于高估分类紧急性。”
人工智能已经被用于基于视网膜扫描来评估眼科和其他疾病,结果令人印象深刻。最近儿科医学测试的平庸表现确实突出了依赖人工智能时所需的谨慎,但这些测试是用GPT—3.5完成的。
如果儿科研究人员使用GPT-4,他们会取得更好的结果,就像这项眼科分流研究中的情况一样。
这一令人鼓舞的结果促使研究人员在论文的最后说:“眼科医生应该为医疗保健提供的新范式做好准备,因为外行人转向人工智能聊天机器人来解决个人健康需求。
如果你问ChatGPT Plus关于你的眼睛有什么问题,它似乎会给你同样好,或更好的建议比医学培训生。必应聊天?不太喜欢