传统的科学研究方法严重依赖于同行评议,其他科学家在研究发表前仔细评估和评论。
然而,由于提交的数量激增,以及可用人类审查员的稀缺,这一传统系统受到了瓶颈。
斯坦福大学的James Zou说:“研究人员越来越难从评论者那里得到高质量的反馈。”
为了应对这一挑战,邹丽红和他的团队转向ChatGPT了解聊天机器人是否能够对研究论文提供清晰、客观的反馈。他们使用GPT-4审阅了来自《自然》的3000多篇手稿和来自国际学习表征会议(ICLR)的1700多篇论文。
当将ChatGPT的反馈与人类审稿人对同一篇论文的反馈进行比较时,他们发现人工智能对Nature论文的50%以上的评论和对ICLR论文的77%以上的评论与人类审稿人提出的观点一致。
扩展了实验,该团队还使用ChatGPT评估了预印本服务器上数百篇尚未进行同行评审的论文。
他们收集了人工智能和计算生物学领域的308位作者的反馈,发现超过82%的作者认为ChatGPT的反馈通常比他们过去从人类评论员那里收到的一些反馈更有益。
尽管取得了这些令人鼓舞的结果,但人们对人工智能提供微妙和技术细节反馈的能力的担忧仍然存在。
此外,ChatGPT的反馈可能是不可预测的,其结果取决于研究内容。
Zou承认这些局限性,并指出一些研究人员发现ChatGPT的反馈过于模糊。
研究人员仍然乐观地认为,GPT—4可以帮助同行评审过程中的一些繁重工作,标志着更明显的错误和不一致。
更多关于研究
ChatGPT—具体而言,是GPT—4模型—在审查科学研究和提供快速反馈方面实际上是有效的。
以下是关于这项研究的更多信息:
- 目的:这项研究确定了获得高质量的人类同行审评的困难。它的目的是探索使用像GPT—4这样的大型语言模型(LLM)来为研究手稿提供科学反馈。
- 模型设计研究人员使用GPT—4创建了一个自动化管道,为科学论文的完整PDF提供评论。该管道的目的是评估如何以及法学硕士生成的反馈可以补充或帮助现有的同行评审过程在科学出版。
- 结果通过两项研究评价了GPT—4反馈的质量。第一项研究涉及回顾性分析,将生成的反馈与来自15本Nature家族期刊的3,096篇论文和来自ICLR机器学习会议的1,709篇论文的人类同行评审反馈进行了比较。定量评估了GPT—4和人类审查员提出的点的重叠。
- 第二项研究是由来自110家美国人工智能和计算生物学机构的308名研究人员参与的。这些研究人员在他们自己的论文中提供了他们对GPT-4系统产生的反馈的看法。
- 结论:研究人员发现,GPT-4和人类审查者提出的观点以及用户研究中大多数参与者对LLM产生的反馈的积极看法之间存在大量重叠。结果表明,LLM和人类
几乎可以肯定,GPT—4暴露在数十万项科学研究中,可能有助于模型准确地剖析和批评研究,就像人类同行评审员一样。
人工智能正与学术进程日益交织在一起。《自然》杂志最近调查了1600名研究人员对ChatGPT等生成性人工智能的看法,虽然许多人提出了偏见的担忧,但大多数人承认将其融入科学过程是不可避免的。