Meta推出了语音盒,这是一个最先进的语音生成人工智能模型。它的工作原理类似于文本生成器,如ChatGPT,但生成音频而不是文本响应。
Voicebox可以从头开始生成音频或修改现有音频。这是一个高度灵活的工具,可以采取2秒的音频剪辑某人的声音,并使用它生成不同语言的语音,同时保留语音语调。
这与文本到语音的生成相结合。因此,你可以将你的声音插入人工智能,并用它用你自己的声音进行文本到语音的生成。例如,如果你在度假,需要用英语、法语、西班牙语、德语、波兰语或葡萄牙语交流,只需在Voicebox中输入你的消息,它就会为你说话。
这位模特接受了超过50,000小时的录音演讲和6种语言的文字记录:英语、法语、西班牙语、德语、波兰语和葡萄牙语。它比类似的以音频为中心的人工智能(如Vall-E.)要快得多,也更准确。
以下是Voicebox的4个主要用途:
- 上下文中的文本到语音合成:Voicebox可以从文本生成逼真的音频。这可以用来创建多语言虚拟助手,使有语音和听力障碍的人能够更自然地交谈。
- 跨语言风格迁移人工智能可以将文本翻译成6种不同的语言,实现真实和自然的多语言通信。
- 语音去噪与编辑:Voicebox可以生成语音来编辑音频录制中的片段。例如,它可以重新合成被噪声破坏的语音部分。
- 多种语音采样:Voicebox可以生成6种语言的代表性语音,这是为其他语音和音频模型生成合成数据的理想选择,结果令人印象深刻。在Voicebox生成的合成语音上训练的语音识别模型的性能与在真实语音上训练的模型几乎相同,错误率下降了1%,从类似模型中观察到的45%到70%的下降是一个巨大的飞跃。
Meta还没有发布Voicebox,理由是担心滥用。然而,他们已经发表了一篇关于该模型的深入论文, 可在此处获得.
虽然目前还没有官方估计人们何时能够使用Voicebox,但Meta表示,该工具将帮助创作者编辑音轨,改善与视障人士的沟通,并使人们能够用自己的声音说任何外语。
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...