Meta发布首款多模态人工智能翻译器

AI行业新闻1年前 (2023)发布 yundic
433 0 0

Meta发布了新的多模式多语言AI翻译器模型Seamless M4T。这款首创的翻译机可以翻译和转录多达100种语言的语音和文本。

Meta一直致力于开发许多语言识别和翻译产品,但在无障碍M4 T中,它将多个输入和输出集成到一个模型中。

根据 Meta发布公告、无缝M4T支持:

  • 近100种语言的语音识别
  • 支持近100种输入和输出语言的语音到文本翻译
  • 语音翻译,支持近100种输入语言和36种(含英语)输出语言
  • 近100种语言的文本到文本翻译
  • 文本到语音翻译,支持近100种输入语言和35种(含英语)输出语言

语音到语音的翻译可能是该模型更令人兴奋的功能之一。能够用你的语言录制演讲,然后用另一种语言说出来,这真是令人惊叹。想象一下,在异国他乡旅行时,这将是多么有用。

2022年,Meta发布了支持200种语言的文本到文本翻译器。该模式支持55种非洲语言,其中许多语言被其他工具翻译得很差。

去年年底,Meta还发布了一个新方法的例子,用于低资源语言的语音到语音翻译。它使用其通用语音翻译器来翻译闽南语,这是一种没有书写系统的口语。

今年早些时候,它继续专注于服务不足的语言,推出了大规模多语言语音模型,提供1100多种语言的自动语音识别。

无障碍M4T是一个统一的模型,它建立在这些单独的模型功能之上,将它们组合成一个轻量级模型。

 

训练数据存在偏差和毒性挑战

Meta表示,其模型的训练对象是“来自公开可用的网络数据(数百亿句)和语音(400万小时)的数据。”

它没有具体说明培训数据来自哪里,但说这些数据来自没有版权保护的授权和开源数据。

Meta承认,该模型面临与其他人工智能模型相同的”固有风险”,即偏见和毒性。不同文化中的偏见不可避免地在录制的音频中表达出来,并在训练过程中转移到模型中。

为了消除偏见,Meta扩展了其多语言HolisticBias文本数据集以适应语音。这是其努力的一部分,以纠正当模型可能“不公平地偏袒一个性别,有时默认为性别陈规定型观念”。

提供护栏以抑制输出的毒性是Meta必须解决的另一个挑战。毒性指的是不正确的翻译如何”煽动仇恨,暴力, 对个人或群体的亵渎或辱骂。

Meta使用其”高度多语言毒性分类器”来检查输入和输出中的毒性,以便无菌M4 T不太可能冒犯任何人。

它可能仍然会想出一些尴尬的翻译,因为开发该模型的团队承认,它“在从中性术语翻译时过度泛化为阳性形式。”我敢打赌,如果你足够努力,你可以让它说些调皮的话。

如果你想尝试一下,然后看看 演示在这里.您可以录制一个句子,选择三种不同的语言,几秒钟后听到口语翻译。很厉害

Meta在描述其对无障碍M4 T的野心时,引用了《银河系漫游指南》中的巴别鱼。它还不能实时翻译,但它可能比把鱼插在耳朵里舒服得多。

© 版权声明

相关文章

暂无评论

暂无评论...