21岁的卢克·法里托是内布拉斯加-林肯大学计算机科学专业的一名学生,他透露了一幅碳化的古赫库兰尼姆卷轴中的文字。
自公元79年火山爆发以来,这卷卷轴一直无法阅读,也吞噬了庞贝城。Farritor的机器学习算法成功地在卷起的纸莎草纸上精确定位了希腊字母,包括单词π o ρ ρ α(phyoras),意思是“紫色”。
他的技术关键在于识别表面纹理中微小的细微差别,以训练他的神经网络来检测墨水,进而检测墨水。
当我看到第一张照片时,我很震惊。说 Federica Nicolardi,那不勒斯大学的纸页学家。“这是一个梦,”她继续说,“我真的可以从卷轴里面看到一些东西。
这些卷轴在公元79年被维苏威火山喷发掩埋,由于它们的脆弱状态,基本上仍然无法取回。
手动展开烧焦的卷轴会导致它们剥落,导致学者们担心里面的内容会永远是个谜。
烧焦的赫库兰尼姆卷轴无法展开。来源:《自然》。
正如Nicolardi解释的那样,“这些都是如此疯狂的物体。他们都被压扁了。”
认识到破译卷轴的挑战, 维苏威火山挑战设立了各种奖项,包括为破译一幅卷轴上的多段文字而颁发的70万美元大奖。
10月12日,宣布Farritor获得了4万美元的奖金,因为他在一小段纸莎草纸上识别了10多个字符。
另一位参与者,柏林自由大学的优素福·纳德,获得了1万美元的第二名。
研究古希腊和罗马的历史学家西娅·索默舍尔德将最终辨别卷轴中的字母和单词的能力描述为“极其令人兴奋”。
Sommerschfield提到,解释这些可能会彻底改变我们对该地区古代历史和文学的了解。
这并不是研究人员第一次试图阅读这些古老的卷轴。2019年,专门研究古卷轴虚拟阅读和保存的计算机科学教授布伦特·西尔斯(Brent Seales)试图使用X射线计算机断层扫描(CT)扫描来“虚拟打开”卷轴。
2016年,西尔斯成功地用1970年在以色列艾因盖地发现的一张古希伯来羊皮纸揭开了利未记的部分面纱。
然而,赫库兰尼姆卷轴带来了一个不同的挑战:由木炭和水制成的墨水在扫描中并不突出。
这就是法瑞托成功的地方,他专注于一种特定的微妙纹理,创造了“裂纹”,以寻找墨水的痕迹。
Farritor说,“我跳上跳下,”他的算法显示了一个新发布的片段中的五个字母。“哦,我的天哪,这真的会起作用,”他意识到。
此后不久,他改进了他的模型,并确定了奖品所需的10个字母,其中“紫色”一词以前在赫库兰尼姆卷轴中没有被识别。
维苏威火山挑战赛的大奖尚未揭晓,截止日期为12月31日。
用于解码古语言的人工智能
六千年前,苏美尔人定居在美索不达米亚,这片土地横跨底格里斯河和幼发拉底河。
这个地区,包括今天的伊拉克,科威特,土耳其和叙利亚,见证了从小农业社区到大城市文明的演变。像拉扎克这样的城市蓬勃发展,融合了复杂的运河、灌溉框架和治理中心。这是人类进步和进化的关键时代。
苏美尔人用楔形文字书写。这种书写系统需要将芦苇压入泥土中,生成复杂的符号音节铭文。楔形文字不是一种语言,它是一种包含了大约15种语言的文字,超过了三千年。
一个楔形文字碑的例子,其中包含一篇名为《马杜克赞美诗》的文字。来源:维基媒体共享区。
虽然楔形文字主要用作记录牲畜或交易等任务的管理工具,但到公元前2700年,出现了一系列更哲学和创造性的作品。
其中最值得注意的是, 吉尔伽美什史诗它分布在12个药片上。
慕尼黑路德维希·马克西米利安大学(Ludwig Maximilians University)的恩里克·希门尼斯(Enrique Jiménez)说:“人类历史的一半都被封装在这些楔形文字中。
然而,只有75人, 新科学家尽管全世界有数万块未经翻译的石板,但它仍能解码楔形文字。
机器学习现在正在帮助研究人员解开刻在石碑上的故事,帮助他们填补空白,按时间顺序排列文本,以发现更多关于古代苏美尔人生活的信息。
机器学习在古文解密中的作用
恩里克·希门尼斯和他的团队创立了 电子巴比伦文学,这是考古学家、数据科学家和历史学家之间的合作。
为了分析楔形文字板,研究小组使用了最初设计用于基因序列比较的机器学习技术。这个人工智能预测缺失部分的内容以及片段对齐的边界。
这种技术导致了一些发现,比如吉尔伽美什史诗中缺失的部分,以及一种新发现的美索不达米亚流派,描述了儿童的教育性模仿和笑话。
2020年,一个单独的模型, DeepScribe在6,000张注释图像上进行训练, 波斯波利斯要塞档案,它指定了大约100,000个来自埃兰语(来自今天的伊朗)的符号,日期大约在公元前500年。
利用芝加哥大学研究计算中心的资源,Krishnan和Eddie Williams训练了一个模型,能够以令人印象深刻的80%的准确率解码这些符号。
该团队打算将DeepScribe开发成一个通用的解密工具,可以针对Elamite以外的语言进行重新培训。
DeepScribe试图阅读古代埃兰语的符号。来源:DeepScribe。
DeepMind还研究了使用机器学习来解码古代语言–在这种情况下,古希腊语平板电脑被损坏了。
命名 伊萨卡该模型以72%的精度恢复文本,在30年内估计出文本的年龄,甚至以71%的精度推测文本的来源。
DeepMind Ithaca填补了希腊石板碎片的空白。来源:DeepMind。
伊萨卡的训练涉及从公元前700年到公元500年的60,000篇文本,标签上有关于它们在84个古代领土上的时间和地点的数据。
古老的文本和尖端的人工智能的交叉展示了即使是几千年的神秘也无法幸免于现代技术的进步。
通过将新旧融合,研究人员既保存了历史,又保留了以前未知的 考古学知识
这些突破突显了当我们将人类的好奇心与技术能力结合在一起时,无限的可能性,证明有了一个新的镜头来看待我们集体过去的奇观。