OpenAI推出了Sora,这是一种最先进的文本到视频(TTV)模型,可以从用户文本提示符中生成长达60秒的逼真视频。
最近,我们看到了人工智能视频生成方面的巨大进步。上个月,当谷歌给我们一个Lumiere的演示时,我们很兴奋,Lumiere是它的TTV模型,可以生成5秒的视频剪辑,具有出色的连贯性和动感。
仅仅几周后,苍井空制作的令人印象深刻的演示视频就让谷歌的Lumiere看起来相当古怪。
Sora生成高保真视频,可以包括多个场景,模拟摄像机平移,同时严格遵守复杂的提示。它还可以生成图像,向后和向前扩展视频,并使用图像作为提示符生成视频。
Sora的一些令人印象深刻的表现在于我们在观看视频时认为理所当然但人工智能难以产生的东西。
下面是一个视频的例子Sora从提示生成:“一个电影预告片,特色的冒险的30岁的太空人戴着红色羊毛针织摩托车头盔,蓝天,盐沙漠,电影风格,拍摄在35毫米胶片,生动的色彩。
这段短片展示了苍井空真正与众不同的几个关键特征。
- 提示很复杂,生成的视频紧紧贴在上面。
- 苍井空保持性格连贯性。即使角色从帧中消失并重新出现,角色的外观也保持一致。
- 苍井空保留了形象的永久性。场景中的对象在平移或场景更改期间保留在后面的帧中。
- 生成的视频显示了对物理和环境变化的准确理解。盐田中的灯光、阴影和脚印就是很好的例子。
苍井空不仅理解提示符中的词语是什么意思,它还理解这些对象在物理世界中如何相互作用。
这是苍井空能够生成令人印象深刻的视频的另一个很好的例子。
这段视频的提示是:“一个时髦的女人走在东京一条满是温暖发光的霓虹灯和活生生的城市标志的街道上。她穿着一件黑色皮夹克,一件红色长裙,一双黑色靴子,带着一个黑色钱包。她戴着墨镜,涂着红色口红。她走起路来自信而随意。街道潮湿反光,创造了五颜六色的灯光的镜面效果。很多行人走来走去。
离AGI更近一步
我们可能会被视频震撼,但OpenAI对物理世界的理解尤其兴奋。
在Sora的博客文章中,该公司表示:“Sora是能够理解和模拟真实世界的模型的基础,我们相信这一能力将是实现AGI的一个重要里程碑。”
一些研究人员认为,嵌入式人工智能对于实现人工智能(AGI)是必要的。将人工智能嵌入可以感知和探索物理环境的机器人是实现这一目标的一种方法,但这也带来了一系列实际挑战。
Sora接受了大量视频和图像数据的训练,OpenAI表示这些数据负责模型在模拟物理世界中的人、动物和环境方面所显示的紧急能力。
OpenAI表示,Sora并没有明确接受3D物体物理学的训练,但这些涌现的能力“纯粹是规模现象”。
这意味着Sora最终可以用于精确模拟人工智能可以与之交互的数字世界,而无需将其具体化为机器人等物理设备。
更简单地说,这就是中国研究人员试图用他们的人工智能机器人童童来实现的。
目前,我们将不得不满足于OpenAI提供的演示视频。苍井空只提供给红色团队成员和一些视觉艺术家、设计师和电影制作人,以获得反馈并检查模型的一致性。
一旦Sora被公开发行,我们会不会看到SAG—AFTRA电影业的工作者脱下他们的纠察标志?