谷歌研究院推出了Lumiere,这是一个文本到视频的扩散模型,可以从文本或图像提示符中创建非常逼真的视频。
由Midjourney或DALL—E等工具生成的静态图像令人难以置信,但可以理解的是,文本转视频(TTV)已经落后了,到目前为止也没有那么令人印象深刻。
在过去的12个月里,像Pika Labs或稳定视频扩散公司的TTV模型已经取得了长足的进步,但运动的真实感和连续性仍然有些笨拙。
Lumiere代表了TTV的一个巨大飞跃,这是由于一种新颖的方法来生成空间和时间一致的视频。换句话说,目标是每帧中的场景在视觉上保持一致,动作流畅。
Lumiere能做什么?
Lumiere拥有一系列视频生成功能,包括:
- 文本转视频 —输入文本提示符,Lumiere以每秒16帧的速度生成一个5秒的视频剪辑,由80帧组成。
- 图像到视频 —Lumiere拍摄一张图像作为提示,并将其转换成视频。
- 风格化一代 —图像可以用作样式参考。Lumiere使用文本提示符以参考图像的风格生成视频。
- 视频风格化 —Lumiere可以编辑源视频以匹配文体文本提示。
- 电影摄影-选择静止图像中的一个区域,Lumiere将对图像的该部分进行动画处理。
- 视频修复-Lumiere可以拍摄一个蒙面视频场景,并对其进行内嵌,以完成视频。它还可以通过删除或替换场景中的元素来编辑源视频。
下面的视频展示了Lumiere可以生成的一些令人印象深刻的视频。
卢米埃是怎么做到的?
现有的TTV模型采用级联设计,其中基础模型生成关键帧的子集,然后使用时间超分辨率(TSR)模型来生成数据来填充帧之间的间隙。
这种方法是存储器效率高的,但试图填充关键帧的子采样集之间的间隙会导致视频具有时间不一致性或毛刺运动。然后,在非重叠窗口上使用空间超分辨率(SSR)模型对低分辨率帧进行放大。
Lumiere采取了一种不同的方法。它使用时空U网(STUNet)架构,该架构学习在空间和时间上对信号进行下采样,并同时处理所有帧。
因为它不仅仅是将样本关键帧的一个子集传递给一个TMR,Lumiere实现了全局一致的运动。为了获得高分辨率视频,Lumiere在重叠窗口上应用了SSR模型,并使用MultiDiffusion将预测结果组合成一致的结果。
谷歌研究公司进行的一项用户调查显示,绝大多数用户更喜欢其他TTV型号的Lumiere视频。
用户首选的文本到视频质量、视频与文本提示的对齐程度以及图像到视频的视频质量。来源:谷歌研究
最终的结果可能只有一个5秒的剪辑,但现实主义和连贯的视觉和运动比任何目前可用的东西都要好。大多数其他TTV解决方案目前只能生成3秒的剪辑。
Lumiere不处理场景转换或多镜头视频场景,但更长的多场景功能几乎肯定在管道中。
在Lumiere的研究论文中,谷歌指出:“使用我们的技术创建虚假或有害内容存在被滥用的风险。
希望他们能找到一种方法来有效地水印他们的视频,并避免版权问题,这样他们就可以为我们发布Lumiere,让我们通过它的步伐。