纽约大学的研究人员建造了一个人工智能，’

385 0 0

纽约大学的研究人员从儿童的学习过程中获得灵感，训练了人工智能系统。

该方法的详细信息见科学杂志让人工智能能够从环境中学习，而无需严重依赖标记数据，这是研究设计的关键。

它反映了儿童如何通过从周围环境中吸收大量信息来学习，逐渐理解周围的世界。

该团队从60小时的第一人称视频记录中创建了一个数据集，这些视频来自6个月至两岁的儿童佩戴的头盔摄像头，以在他们的人工智能模型中复制儿童的视角。

1/今天在《科学》杂志上，我们通过一个孩子的眼睛和耳朵从头开始训练一个神经网络。该模型学习将单词映射到视觉参照物，展示了如何利用当今的人工智能工具从一个孩子的角度学习语言。https://t.co/hPZiiQt6Vv

– Wai Keen Vong（@ wkvong）2024年2月1日

然后，研究人员使用视频数据集训练了一个自我监督学习(SSLAI)人工智能模型，看看人工智能是否能够像儿童一样，通过分析视频中的时间或时间相关信息来掌握动作和变化的概念。

SSL方法使AI模型能够在没有明确标签的情况下学习数据中的模式和结构。

研究作者Emri Orhan，在他的研究博客中写道，他之前曾主张在人工智能研究中更加关注SSL，他认为SSL对于理解复杂的学习过程至关重要。

奥尔汉写道：“人们常说，孩子们能非常有效地学习单词的意思。例如，在他们的第二年，孩子们被声称平均每天学习几个单词。这表明，他们很可能能够通过少数几次曝光(可能通常只通过一次曝光)学习大部分单词，这种现象也被称为快速映射。

为了测试这一点，还有什么比训练神经网络更好的呢？训练神经网络的不是来自网络的海量数据，而是一个孩子接受的输入。那么，它会学到什么呢？Pic.twitter.com/bQ9aVbXUlB

– Wai Keen Vong（@ wkvong）2024年2月1日

该研究还旨在解决人工智能是否需要内置的偏见或“捷径”来有效地学习，或者它是否可以像孩子一样通过通用的学习算法来发展对世界的理解。

结果很有趣。尽管视频只覆盖了儿童清醒时间的1%，但人工智能系统可以学习许多单词和概念，证明了从有限但有针对性的数据中学习的效率。

结果包括：

动作识别性能：在SAYCam数据集上训练的人工智能模型在识别视频动作方面非常有效。当在像Kinetics-700和Something-Things-V2(SSV2)这样的细粒度动作识别任务上进行测试时，这些模型表现出令人印象深刻的性能，即使只有少量标记的训练样本。
与Kinetics—700数据集的比较：将接受SAYCam训练的模型与使用Kinetics-700训练的模型进行比较，Kinetics-700是一组不同的YouTube短片数据集。值得注意的是，SAYCam模型的表现具有竞争力，这表明以儿童为中心、发展现实的视频数据为人工智能提供了丰富的学习环境，与YouTube上的各种内容相似，甚至更好。
视频插补技巧：一个有趣的结果是，模型能够执行视频内插–预测视频序列中缺失的片段。这展示了对视觉场景中的时间动力学和连续性的理解，反映了人类感知和预测行动的方式。
健壮的对象表示：研究还发现，视频训练的模型比那些在静态图像上训练的模型发展出更健壮的对象表征。这在需要在各种条件下识别物体的任务中很明显，突显了时间信息在学习更具弹性和多功能性的模型方面的价值。
数据扩展和模型性能研究探索了模型的性能如何随着SAYCam数据集视频数据的增加而提高。这表明访问更广泛、更真实的数据将提高模型性能。