Google 全新的 AI 翻译系统，不仅可以模仿你的语调，还能模仿你的声线

首先请听一下下面这三段录音。

▲ 能够模仿语气和声线的翻译. 音频来自：Google AI Blog

如果我不说，你能听得出后面两段录音其实是第一段的机器翻译录音吗？

确实，与大家所熟知的生硬的语音翻译不同，这两段录音的翻译更加的自然，甚至还略带一点语气。这其实是出自于 Google 的全新翻译系统。

近日，Google 研究团队在博客上介绍了一款可以模仿语调、声线的全新 AI 翻译系统——Google Translatotron，而上面三段语音中的第二段就是 Google Translatotron 对第一段话的翻译，第三段则是在翻译的基础上对第一段的声线进行了一定程度上模仿。

▲图片来自：NYTimes

包括大家常用的 Google 翻译在内，现在绝大多数的翻译系统的工作流程都分为三步：首先是将原语音识别成文本，然后对文本翻译目标语言，最后再进行文本到语音的合成。

由于在声音转化为文字时，原语音的语气等信息是无法进行转化的，所以也就解释了为什么我们现在所使用的翻译系统，语音生硬，且无法模仿原语音的语气的。

▲图片来自：KCBI

那 Google Translatotron 又是怎么做到的？这就要从 Google Translatotron 的工作方式说起了。这个全新的翻译系统，不通过语音来进行翻译、也不通过文字来进行翻译，而其实是通过图像来进行翻译的。

再具体一点就是当用户向 Google Translatotron 说出一段需要翻译的话后，系统就会根据这段语音生成一段声音图谱，然后经过大量针对性训练的系统 AI 会对图谱进行分析，并且根据分析结果再直接生成回一张目标语言的语音图谱，最后系统对声音图谱进行播放，就得出了像文章开头的录音那样，带有「语气」的翻译了。

▲Google Translatotron 的工作模型 . 图片来自：Google AI Blog

另外，该系统还接入了声源编码器来对声音进行处理，这就使得了 Translatotron 生成的目标语音不仅可以模仿用户原话中的语气，甚至可以在一定程度上模仿用户的声线。

负责该翻译系统的 Google AI 工程师 Ye Jia 以及 Ron Weiss 表示，省去中间转化为文本的步骤，不仅意味着翻译的速度更快了，也意味着更少的错误。

▲图片来自：The Economic Times

包括文章开头的几段音频在内，Google 在博客中放出了数段由 Translatotron 把西班牙语翻译成英语的测试样例。从样例中我们依旧可以听到机器生成语音的痕迹，但是相比起现在大多由文本生成的语音，Translatotron 所生成的语音显然更为自然，而且也可以在一定程度上模仿了原语音的语调以及声线，保留了更多重要的「情感信息」。有兴趣的同学可以点击该链接去收听更多的样例。

不过目前该研究还是处于实验室研究阶段。包括翻译准确性，嘈杂场景下的可用性等 Google Translatotron 都需要进行更多的优化。但是正如 Google 工程师们在博客中所说的一样，该项研究将会成为未来翻译技术的一个新起点。

题图来自：Fortune