一种新的机器学习模型击败了化学领域的人工智能文本检测模型。
这项研究于1999年发布, Cell报道物理科学描述了一个AI文本分类器,它超越了其他两个流行的AI检测系统,包括ZeroGPT。
该模型仔细检查了20个写作风格特征,如句子长度的变化和特定的单词和标点的使用,以评估一篇文章是由学术还是由ChatGPT撰写的。
研究人员根据美国化学学会(ACS)的10本化学期刊上发表的100篇论文的引言对模型进行了训练。然后,研究人员促使ChatGPT—3.5以与ACS期刊一致的风格制作了200篇引言,其中一半为标题,另一半为摘要。
在评估后,检测器根据标题100%地识别了ChatGPT撰写的介绍。当分析由摘要生成的引言时,准确率略微降低到98%。
探测器的熟练程度甚至与来自GPT—4模型的文本一致。它与ZeroGPT和OpenAI的文本分类工具进行了比较,两者的准确率都明显较低。
这项研究的合著者,劳伦斯堪萨斯大学的化学家希瑟·德赛尔强调了他们工具的独特之处,“大多数文本分析领域都想要一个真正通用的检测器,可以对任何东西起作用。我们真正追求的是精确度,我们制造了一种专注于特定类型纸张的工具。
虽然该工具在各种期刊风格和提示中显示出了它的优势,但它高度专门用于科学文章,对来自大学报纸的材料效果不佳。
由于人工智能只应用于引言和摘要,它无法有效地处理整篇论文。
更多关于这项研究的信息
考虑到现有的人工智能书写检测器性能不佳,以及它们引发的争议,任何准确率接近100%的模型确实非常有趣。
- 这款人工智能文本检测器是为科学期刊文章,特别是化学期刊设计的,在区分人类和人工智能生成的文本(包括GPT-4文本)方面表现出了非凡的准确性。
- 该检测器采用基于20个不同文本特征的XGBoost机器学习算法,优于现有的人工智能检测工具,准确率为98%—100%。
- 该工具在各种测试场景中成功地识别了人工智能生成的文本,即使有旨在隐藏人工智能使用的提示,表明了对不同写作风格和复杂性的鲁棒性。
然而,对于这样一个小的训练数据集,你不得不说这种方法似乎容易受到过度拟合的影响,这意味着模型可能对所使用的数据非常好,但在此之外表现出较差的性能。
此外,在模糊的情况下,可能存在一种隐性的倾向,即将文本标记为人类书写,因为检测器正在开发以捕获人工智能生成的文本,可能会优先考虑假阴性而不是假阳性。