MusicLM将条件音乐生成过程描述为一个分层的序列到序列建模任务,并生成具有一致性的音乐,其采样率为24kHz,并可以持续几分钟。实验结果表明,MusicLM在音频质量和遵循文本描述方面优于先前的系统。此外,我们证明MusicLM可以同时基于文本和旋律进行条件处理,即可以根据文本说明将哼唱和口哨的旋律转换为所描述的风格。为了支持未来的研究,我们公开发布MusicCaps数据集,其中包含5.5k个音乐-文本对,由人类专家提供了丰富的文本描述。

相关导航

暂无评论

暂无评论...