Meta发布了V—JEPA,这是一个预测视觉模型,是Meta首席人工智能科学家Yann LeCun对先进机器智能(AMI)愿景的下一步。
对于人工智能驱动的机器来说,要与物理世界中的物体进行交互,它们需要经过训练,但传统的方法效率非常低。他们使用数千个视频示例与预训练的图像编码器,文本或人类注释,让机器学习单个概念,更不用说多个技能了。
V—JEPA代表联合嵌入预测架构,是一个愿景模型,旨在以更有效的方式学习这些概念。
LeCun说:“V—JEPA是朝着更深入地理解世界迈出的一步,这样机器就可以实现更广义的推理和规划。
V-JEPA学习物理世界中的物体如何相互作用,方式与蹒跚学步的孩子大致相同。我们如何学习的一个关键部分是通过填空来预测缺失的信息。当一个人走在屏幕后面,走出屏幕的另一边时,我们的大脑填补了空白,对屏幕后面发生的事情有了理解。
V-JEPA是一个非生成性模型,它通过预测视频中缺失或被屏蔽的部分来学习。生成式模型可以逐个像素地重建被屏蔽的视频片段,但V-JEPA不能做到这一点。
它比较未标记图像的抽象表示,而不是像素本身。V—JEPA提供了一个视频,其中有很大一部分被掩盖了,只有足够的视频提供一些背景。然后,要求模型提供一个抽象的描述,描述在被掩盖的空间中发生了什么。
Meta说,它没有接受某一特定技能的培训,而是使用了一系列视频的自我监督培训,并学习了许多关于世界如何运行的东西。
今天,我们将发布V-JEPA,这是一种教机器通过观看视频来理解物理世界并对其建模的方法。这项工作是迈向@ylecun概述的人工智能模型愿景的又一重要步骤,该模型使用对世界的学习理解来计划、推理和…Pic.twitter.com/5i6uNeFwJp
– AI在Meta(@ AIatMeta)2024年2月15日
冻结评价
Meta的研究论文解释说,V—JEPA比其他视觉学习模型更高效的一个关键因素是它在”冻结评估”方面的表现。
在使用大量未标记数据进行自我监督学习后,编码器和预测器在学习新技能时不需要进一步训练。预训练模型被冻结。
以前,如果你想微调一个模型来学习一个新的技能,你需要更新整个模型的参数或权重。为了让V—JEPA学习一个新的任务,它只需要少量的标记数据,并且只需要在冻结的主干之上优化一小组特定于任务的参数。
V—JEPA具有有效学习新任务的能力,对于体现人工智能的发展是有希望的。它可能是使机器能够根据上下文感知其物理环境并处理规划和顺序决策任务的关键。