Google 全新的 AI 翻译系统,不仅可以模仿你的语调,还能模仿你的声线

公司

05-20 16:35

首先请听一下下面这三段录音。


▲ 能够模仿语气和声线的翻译. 音频来自:Google AI Blog

如果我不说,你能听得出后面两段录音其实是第一段的机器翻译录音吗?

确实,与大家所熟知的生硬的语音翻译不同,这两段录音的翻译更加的自然,甚至还略带一点语气。这其实是出自于 Google 的全新翻译系统。

近日,Google 研究团队在博客上介绍了一款可以模仿语调、声线的全新 AI 翻译系统——Google Translatotron,而上面三段语音中的第二段就是 Google Translatotron 对第一段话的翻译,第三段则是在翻译的基础上对第一段的声线进行了一定程度上模仿。

▲图片来自:NYTimes

包括大家常用的 Google 翻译在内, 现在绝大多数的翻译系统的工作流程都分为三步:首先是将原语音识别成文本,然后对文本翻译目标语言,最后再进行文本到语音的合成。

由于在声音转化为文字时,原语音的语气等信息是无法进行转化的,所以也就解释了为什么我们现在所使用的翻译系统,语音生硬,且无法模仿原语音的语气的。

▲图片来自:KCBI

那 Google Translatotron 又是怎么做到的?这就要从 Google Translatotron 的工作方式说起了。这个全新的翻译系统,不通过语音来进行翻译、也不通过文字来进行翻译,而其实是通过图像来进行翻译的。

再具体一点就是当用户向 Google Translatotron 说出一段需要翻译的话后,系统就会根据这段语音生成一段声音图谱,然后经过大量针对性训练的系统 AI 会对图谱进行分析,并且根据分析结果再直接生成回一张目标语言的语音图谱,最后系统对声音图谱进行播放,就得出了像文章开头的录音那样,带有「语气」的翻译了。

▲Google Translatotron 的工作模型 . 图片来自:Google AI Blog

另外,该系统还接入了声源编码器来对声音进行处理,这就使得了 Translatotron 生成的目标语音不仅可以模仿用户原话中的语气,甚至可以在一定程度上模仿用户的声线。

负责该翻译系统的 Google AI 工程师 Ye Jia 以及 Ron Weiss 表示,省去中间转化为文本的步骤,不仅意味着翻译的速度更快了,也意味着更少的错误。

▲图片来自:The Economic Times

包括文章开头的几段音频在内,Google 在博客中放出了数段由 Translatotron 把西班牙语翻译成英语的测试样例。从样例中我们依旧可以听到机器生成语音的痕迹,但是相比起现在大多由文本生成的语音,Translatotron 所生成的语音显然更为自然,而且也可以在一定程度上模仿了原语音的语调以及声线,保留了更多重要的「情感信息」。有兴趣的同学可以点击该链接去收听更多的样例。

不过目前该研究还是处于实验室研究阶段。包括翻译准确性,嘈杂场景下的可用性等 Google Translatotron 都需要进行更多的优化。但是正如 Google 工程师们在博客中所说的一样,该项研究将会成为未来翻译技术的一个新起点。

题图来自:Fortune

登录,参与讨论前请先登录

评论在审核通过后将对所有人可见

正在加载中