Meta’s MusicGen:用于文本到音乐生成的开源人工智能模型’

AI产品新闻12个月前发布 yundic
136 0 0

Meta宣布推出MusicGen,这是其在音乐和人工智能(AI)领域的最新发展。

这个开源的人工智能模型是为了使用文本生成音乐而创建的,提供了一种独特而富有想象力的音乐制作方法。

最近发表的一 研究论文 介绍了MusicGen如何以独特的方式进行音乐创作。 它预测音乐的下一部分,而不是句子中的下一个字符,创造逻辑和有组织的音乐创作。

作为训练过程的一部分,MusicGen使用Meta的EnCodec音频标记器分解音频数据。

与Google的MusicLM类似,MusicGen使用了来自Shutterstock、Pond5的20,000小时的授权音乐,以及来自内部资源的大量高质量曲目库,MusicGen拥有各种各样的音乐类型和作品。

MusicGen可以响应文本和音乐指令。它可以通过将音频文件中的旋律与描述该风格的文本提示符融合,生成代表某种风格的新音乐作品。

MusicGen并没有提供听到各种流派旋律的能力或对曲调方向的精确控制,相反,MusicGen提供了创造性的诠释。

研究人员测试了3亿到33亿个参数的模型大小。 虽然15亿个参数的模型从人类评分者那里获得了最好的分数,但更大的模型通常产生更高质量的音频。 33亿个参数模型的文本到音频转换的准确性非常高。

MusicGen在客观和任意的衡量标准上都超过了Riffeil、Mousai、MusicLM和Noise2Music等竞争对手。

它表现出卓越的评价音乐和歌词的兼容性以及组成的可信度。

探索音乐样本 这里 以及MusicGen和谷歌MusicLM等竞争对手的比较。

Meta已经在 GitHub,并允许商业使用。huggingface有可进入的演示。

© 版权声明

相关文章

暂无评论

暂无评论...