人工智能从非侵入性的大脑录音中解码语音

AI行业新闻1年前 (2023)发布 yundic
242 0 0

我们的大脑究竟是如何处理和表达语言的,在很大程度上仍然是一个谜。Meta AI的研究人员发现了一种测量脑电波并解码与之相关的单词的新方法。

那些运动技能严重受限的人,如ALS患者,发现交流特别具有挑战性。像斯蒂芬·霍金这样的人,用眼睛运动或抽搐脸颊肌肉,煞费苦心地构建一个句子的挫败感是很难想象的。

已经做了很多研究来解码大脑活动中的语音,但最好的结果取决于侵入性脑机植入物。

Meta AI研究人员使用脑磁图(MEG)和脑电图(EEG)记录了175名志愿者在听短篇故事和孤立句子时的脑电波。

他们使用预先训练的语音模型和对比学习来识别哪些脑电波模式与受试者正在听的特定单词相关。

研究人员将音频分割成3秒的片段,然后测试他们的模型,看看它是否能正确识别志愿者正在听的1500个片段中的哪一个。该模型预测了一种词云,其中最有可能的词被赋予了最大的权重。

他们的平均准确率为41%,而最好的参与者的准确率为95.9%。

人工智能从非侵入性的大脑录音中解码语音

当参与者听句子“谢谢你的到来,艾德”时,单词级预测。蓝色单词对应正确单词,黑色单词对应否定候选人。文本大小与模型的对数概率输出成正比。来源:Nature

研究表明,有可能对一个人听到的是什么讲话有一个相当好的了解,但现在这个过程需要颠倒过来才有用。我们需要测量他们的脑电波知道他们在想什么词。

论文建议在受试者通过说或写产生单词的同时训练一个神经网络。然后,这个通用模型可以用来理解ALS患者正在思考的脑电波和相关词语。

研究人员能够从有限的预定集合中识别语音片段。为了正确的沟通,你需要能够识别更多的单词。使用生成人工智能来预测一个人试图说的下一个最有可能的词可能会有所帮助。

即使这个过程是非侵入性的,它仍然需要连接到MEG设备。不幸的是,EEG测量的结果并不理想。

这项研究确实表明,人工智能最终可能被用来帮助像肌萎缩侧索硬化症患者这样的无声人进行交流。使用预先训练的模型也避免了更多艰苦的逐字训练。

Meta AI公开发布了该模型和数据,希望其他研究人员能够在他们的工作基础上进行研究。

© 版权声明

相关文章

暂无评论

暂无评论...