Meta发布V—JEPA，一个预测视觉模型

AI行业新闻10个月前发布 yundic

300 0 0

Meta发布了V—JEPA，这是一个预测视觉模型，是Meta首席人工智能科学家Yann LeCun对先进机器智能（AMI）愿景的下一步。

对于人工智能驱动的机器来说，要与物理世界中的物体进行交互，它们需要经过训练，但传统的方法效率非常低。他们使用数千个视频示例与预训练的图像编码器，文本或人类注释，让机器学习单个概念，更不用说多个技能了。

V—JEPA代表联合嵌入预测架构，是一个愿景模型，旨在以更有效的方式学习这些概念。

LeCun说：“V—JEPA是朝着更深入地理解世界迈出的一步，这样机器就可以实现更广义的推理和规划。

V-JEPA学习物理世界中的物体如何相互作用，方式与蹒跚学步的孩子大致相同。我们如何学习的一个关键部分是通过填空来预测缺失的信息。当一个人走在屏幕后面，走出屏幕的另一边时，我们的大脑填补了空白，对屏幕后面发生的事情有了理解。

V-JEPA是一个非生成性模型，它通过预测视频中缺失或被屏蔽的部分来学习。生成式模型可以逐个像素地重建被屏蔽的视频片段，但V-JEPA不能做到这一点。

它比较未标记图像的抽象表示，而不是像素本身。V—JEPA提供了一个视频，其中有很大一部分被掩盖了，只有足够的视频提供一些背景。然后，要求模型提供一个抽象的描述，描述在被掩盖的空间中发生了什么。

Meta说，它没有接受某一特定技能的培训，而是使用了一系列视频的自我监督培训，并学习了许多关于世界如何运行的东西。

今天，我们将发布V-JEPA，这是一种教机器通过观看视频来理解物理世界并对其建模的方法。这项工作是迈向@ylecun概述的人工智能模型愿景的又一重要步骤，该模型使用对世界的学习理解来计划、推理和…Pic.twitter.com/5i6uNeFwJp

– AI在Meta（@ AIatMeta）2024年2月15日