Phenaki

Phenaki是一种AI模型，可以从文本生成长度多达几分钟的视频。您还可以从静止图像和提示生成视频。所提出的视频编码器-解码器在时空质量和每个视频标记数方面优于文献中目前使用的所有逐帧基线。为了从文本中生成视频标记，他们使用双向掩码变换器，条件是预先计算的文本标记。生成的视频标记随后被去标记化以创建实际的视频。