Meta发布多通道感知数据集Ego-Exo4D

AI行业新闻1年前 (2023)发布 yundic
509 0 0

训练像GPT—4这样的人工智能模型主要依赖于由文本和图像组成的数据集。Meta的Ego—Exo 4D多模态感知数据集为数据科学家提供了丰富的新训练数据集。

你可以通过阅读一本书来学习一种新的技能,但是当有人向你解释一件事时,它会变得容易得多。这是Meta的FAIR(Fundamental Artificial Intelligence Research)团队为Ego—Exo4D设计的目标。

该数据集由第一人称(Ego)和第三人称(Exo)视角视频组成,这些视频展示了不同技能人类活动的人。这些可以是任何东西,从做饭,跳舞,播放音乐,或修理自行车。该数据由全球13个城市的839名相机佩戴者收集,拍摄了1422小时的视频。

这些视频是同时拍摄的,然后由Meta的Project Aria眼镜提供额外的数据模式。

Project Aria眼镜是一种眼镜形式的可穿戴电脑。它们捕捉佩戴者的视频和音频,以及他们的眼睛跟踪和位置信息。这款眼镜还可以感知环境中的头部姿势和3D点云。

其结果是一个正在执行的任务的同时视频的数据集,相机佩戴者的第一人称叙述描述他们的动作,以及执行任务的人的头部和眼睛跟踪。

Meta随后添加了对每个相机佩戴者行为的第三人称逐个播放描述。Meta还聘请了多个领域的专家,添加第三人称专家口头评论,批评视频中的人执行任务的方式。

通过收集自我中心和外部中心的观点,Ego-Exo4D数据集可以从不同的角度向研究人员展示活动是什么样子的。这可以帮助他们最终开发出计算机视觉算法,可以从任何角度识别一个人在做什么。

Ego-Exo4D开启新的学习机会

实现AGI或更有效地训练机器人的关键障碍之一是缺乏计算机所具有的感官感知。作为人类,我们从环境中获得了如此多的感官输入,当我们学习新技能时,我们常常认为这是理所当然的。

Ego-Exo4D将是帮助弥合这一差距的一个极其有用的资源。

北卡罗来纳大学计算机科学系助理教授Gedas Bertasius博士说:“Ego—Exo4D不仅仅是为了收集数据,而是为了改变人工智能理解、感知和学习的方式。通过以人为中心的学习和视角,人工智能可以在我们的日常生活中变得更有帮助,以我们想象的方式帮助我们。

Meta发布多通道感知数据集Ego-Exo4D

Ego—Exo4D训练数据快照从自行车维修的例子。来源:Meta

Meta表示,它希望Ego—Exo 4D能够”使未来的机器人能够通过观察熟练的人类专家的行动来了解复杂的灵巧操作”。

该数据集与Project Aria眼镜相结合,很快也将为人类带来真正身临其境的学习体验。想象一下,当你的眼镜使用增强现实(AR)覆盖教学视频或指导你完成任务时,你正在执行一项任务。

你可以学习弹钢琴,并有一个视觉覆盖显示你的手应该移动在哪里,在你做它的时候,实时音频建议。或者,你可以打开汽车的引擎盖,在指导下排除故障和修复发动机问题。

Meta的自我指导学习理念是否会比失败的Google Glass产品更好地采用Project Aria眼镜,这将是一个有趣的观察。不过,目前还没有关于它们何时可以购买的消息。

Meta将在12月底之前提供EGO-Exo4D数据集的下载。

© 版权声明

相关文章

暂无评论

暂无评论...