纽约大学的研究人员建造了一个人工智能,’

AI行业新闻7个月前发布 yundic
397 0 0

纽约大学的研究人员从儿童的学习过程中获得灵感,训练了人工智能系统。

该方法的详细信息见科学杂志让人工智能能够从环境中学习,而无需严重依赖标记数据,这是研究设计的关键。

它反映了儿童如何通过从周围环境中吸收大量信息来学习,逐渐理解周围的世界。

该团队从60小时的第一人称视频记录中创建了一个数据集,这些视频来自6个月至两岁的儿童佩戴的头盔摄像头,以在他们的人工智能模型中复制儿童的视角。

然后,研究人员使用视频数据集训练了一个自我监督学习(SSLAI)人工智能模型,看看人工智能是否能够像儿童一样,通过分析视频中的时间或时间相关信息来掌握动作和变化的概念。

SSL方法使AI模型能够在没有明确标签的情况下学习数据中的模式和结构。

研究作者Emri Orhan, 在他的研究博客中写道,他之前曾主张在人工智能研究中更加关注SSL,他认为SSL对于理解复杂的学习过程至关重要。

奥尔汉写道:“人们常说,孩子们能非常有效地学习单词的意思。例如,在他们的第二年,孩子们被声称平均每天学习几个单词。这表明,他们很可能能够通过少数几次曝光(可能通常只通过一次曝光)学习大部分单词,这种现象也被称为快速映射。

该研究还旨在解决人工智能是否需要内置的偏见或“捷径”来有效地学习,或者它是否可以像孩子一样通过通用的学习算法来发展对世界的理解。

结果很有趣。尽管视频只覆盖了儿童清醒时间的1%,但人工智能系统可以学习许多单词和概念,证明了从有限但有针对性的数据中学习的效率。

结果包括:

  • 动作识别性能:在SAYCam数据集上训练的人工智能模型在识别视频动作方面非常有效。当在像Kinetics-700和Something-Things-V2(SSV2)这样的细粒度动作识别任务上进行测试时,这些模型表现出令人印象深刻的性能,即使只有少量标记的训练样本。
  • 与Kinetics—700数据集的比较:将接受SAYCam训练的模型与使用Kinetics-700训练的模型进行比较,Kinetics-700是一组不同的YouTube短片数据集。值得注意的是,SAYCam模型的表现具有竞争力,这表明以儿童为中心、发展现实的视频数据为人工智能提供了丰富的学习环境,与YouTube上的各种内容相似,甚至更好。
  • 视频插补技巧:一个有趣的结果是,模型能够执行视频内插–预测视频序列中缺失的片段。这展示了对视觉场景中的时间动力学和连续性的理解,反映了人类感知和预测行动的方式。
  • 健壮的对象表示:研究还发现,视频训练的模型比那些在静态图像上训练的模型发展出更健壮的对象表征。这在需要在各种条件下识别物体的任务中很明显,突显了时间信息在学习更具弹性和多功能性的模型方面的价值。
  • 数据扩展和模型性能研究探索了模型的性能如何随着SAYCam数据集视频数据的增加而提高。这表明访问更广泛、更真实的数据将提高模型性能。

纽约大学数据科学中心的研究科学家怀基恩·旺说,讨论了这种方法的新颖性他说:“我们首次证明,一个神经网络在一个孩子的这种发展现实的输入上训练,可以学会将单词与他们的视觉对应物联系起来。

在谈到现代产生式人工智能模型所面临的问题时,冯说:“今天最先进的人工智能系统是使用天文数字的数据(通常是数十亿/万亿个单词)进行训练的,而人类却能用少得多的数据(数亿个单词)来学习和使用语言,所以机器学习的这些进步与人类语言习得之间的联系尚不清楚。”

人们对新颖、“轻量级”的机器学习方法的兴趣正在增加。首先,像GPT—3和GPT—4这样的巨型单体模型 有巨大的电力需求 不容易满足的东西

第二,创造受生物启发的人工智能系统 是设计像我们一样真正“思考”和“行为”的模型或机器人的关键。

Vong也承认了研究的局限性,并指出:“一个警告是,输入模型的语言是文本,而不是儿童接收到的潜在语音信号。

这项研究挑战了传统的人工智能训练模型,并促进了正在进行的关于模拟生物学习的最有效方法的讨论。

随着巨大的人工智能模型开始显示出未来的局限性,人们对这一主题的兴趣将会增长。

© 版权声明

相关文章

暂无评论

暂无评论...