Meta’s Nougat使科学文本机器可读

AI产品新闻9个月前发布 yundic
479 0 0

Meta开发了一种名为Nougat的新人工智能模型,可以可靠地将科学文本转换为机器可读文本。

如果你曾经试图阅读一篇科学研究论文,那么你就会开始理解为什么它很难通过电子方式处理。当前的光学字符识别(OCR)工具逐行解析文本。

对于纯粹基于文本的文档来说,这很好,但科学论文增加了这些标准工具无法处理的复杂程度。

科学论文包括数学和科学符号和公式,这些符号和公式通常被添加为下标或上标。即使是最好的OCR也很难正确捕获这些。

让它更具挑战性的是,许多这样的研究论文扫描得很差,原件不再可用。Nougat是学术文献的神经光学理解的缩写,它已经准备好迎接挑战。

与逐行扫描不同,Nougat使用Meta的Vision Transformer的变体来处理整个页面,以进行图像分析。该模型是在PubMed Central和arxiv上发表的文章数据集上进行训练的,这些文章都有相应的LaTeX源代码。

LaTeX是一种用于撰写需要复杂公式和数学符号的科学论文的软件。该模型是通过查看论文的图像并将其与生成复杂文本的代码进行比较来训练的。

下面是Meta在将一篇旧研究论文数字化方面的一个实验。

Meta's Nougat使科学文本机器可读

资料来源: Meta

 

在Facebook Research页面上还有一些更令人印象深刻的例子。

牛轧糖并不完美,但它仍然达到了超过91%的BLEU评分和超过96%的连续文本准确率。BLEU评分衡量机器翻译文本与一组高质量参考译文的相似性。

对于公式和表格,它的表现稍差,准确度略高于75%。这仍然比像GroBID这样的竞争模型要好得多,后者只在11%的时间内成功地实现了正确的目标。

有数百万页的研究无法编入索引或进行搜索,因为它们只能有效地被人类阅读。牛油糖改变了这一点,因为它允许将扫描得很差的研究PDF转换为机器可读的文本。

与其他许多新工具一样,Meta已经在GitHub上免费提供了这个工具。不过,在这一发展中可能存在一定程度的自我利益。一旦旧的研究论文是机器可读的,它们就可以用来训练其他人工智能模型。

这将是有趣的,看看什么长期丢失的研究宝石被重新发现使用牛轧糖。

© 版权声明

相关文章

暂无评论

暂无评论...