Meta’s MusicGen：用于文本到音乐生成的开源人工智能模型’

159 0 0

Meta宣布推出MusicGen，这是其在音乐和人工智能（AI）领域的最新发展。

这个开源的人工智能模型是为了使用文本生成音乐而创建的，提供了一种独特而富有想象力的音乐制作方法。

最近发表的一研究论文介绍了MusicGen如何以独特的方式进行音乐创作。它预测音乐的下一部分，而不是句子中的下一个字符，创造逻辑和有组织的音乐创作。

作为训练过程的一部分，MusicGen使用Meta的EnCodec音频标记器分解音频数据。

与Google的MusicLM类似，MusicGen使用了来自Shutterstock、Pond5的20，000小时的授权音乐，以及来自内部资源的大量高质量曲目库，MusicGen拥有各种各样的音乐类型和作品。

MusicGen可以响应文本和音乐指令。它可以通过将音频文件中的旋律与描述该风格的文本提示符融合，生成代表某种风格的新音乐作品。

MusicGen并没有提供听到各种流派旋律的能力或对曲调方向的精确控制，相反，MusicGen提供了创造性的诠释。

研究人员测试了3亿到33亿个参数的模型大小。虽然15亿个参数的模型从人类评分者那里获得了最好的分数，但更大的模型通常产生更高质量的音频。 33亿个参数模型的文本到音频转换的准确性非常高。

MusicGen在客观和任意的衡量标准上都超过了Riffeil、Mousai、MusicLM和Noise2Music等竞争对手。

它表现出卓越的评价音乐和歌词的兼容性以及组成的可信度。

探索音乐样本这里以及MusicGen和谷歌MusicLM等竞争对手的比较。

Meta已经在 GitHub，并允许商业使用。huggingface有可进入的演示。

文章版权归作者所有，未经允许请勿转载。

yundic

618

yundic

342

yundic

244

yundic

501

yundic

1,349

yundic

暂无评论

暂无评论...