Phenaki是一种人工智能模型,可以直接从文本生成几分钟长的视频。您还可以从静止图像和提示符生成视频。在时空质量和每个视频的令牌数量方面,所提出的视频编解码器的性能优于目前文献中使用的所有每帧基线。为了从文本生成视频令牌,他们使用以预计算出的文本令牌为条件的双向掩码转换器。所生成的视频令牌随后被解令牌化以创建实际视频。

相关导航

暂无评论

暂无评论...