Android 语音识别的新后台

当提到 Android 最新版本 Jelly Bean 的时候，我们首先想到的可能是“黄油计划”。“黄油计划”扭转了人们对 Android 系统卡顿的固有印象，可以算是 Android 发展的一个里程碑。不过，Google 在开发 Jelly Bean 时候还进行了另一项重大工程，它同样重要，那就是语音识别后端的改进。Wired 网站对此进行了报道，并谈到了神经网络的一些发展。

从 Jelly Bean 开始，Google 的语音识别开始使用神经网络。这是一个像人脑一样的学习系统。提到 Google 的神经网络系统，你可以会想起 1000 台电脑找出一只猫的往事。那是 Google 进行的一场有趣试验。根据 Google 工程师 Jeff Dean 的说法，Google 已经在许多产品中使用神经网络的算法，比如图片搜索、Google 街景，而 Jelly Bean 的语音识别是最深入使用神经网络的。

推动这次改变的人是 Vicent Vanhoucke，Google 的研究科学家。他说成效是巨大的，“我们只是改变了模式，就取得了这么大的进步，这有些让人惊奇”。他说，与以前的软件版本相比，新的语音识别错误率降低了 25%，并且使人们更乐意使用语音命令了。

通过神经网络，研究员们能够分析大量的模型。在语音识别上，他们需要分析的是语音的频谱图，并且预测新的模型是什么含义。神经网络是多层的，Google 的软件首先会挑出语音的个别部分，即组成单词的声母和韵母，然后使用这些信息来进行复杂的猜测。神经网络不同的连接层增加了判断的准确率。

神经网络并非新鲜名词，但是它的快速发展却是近几年的事情。多伦多大学的计算机科学教授 Geoffrey Hinton 说，多层的分析是一件困难的事情，但是从 2006 年开始，出现了两个重要的改变。一是他和自己的团队发现了绘制深层神经网络的更好方法，二是低价图形处理器的出现，研究人员可以更快更省钱地处理大量的计算。

除了 Google 以外，微软和 IBM 也在研究神经网络。去年，微软的首席研究官 Rick Rahsid 展示了基于神经网络的语音处理软件。在演示中，Rashid 说完一句英语后会停顿一下，微软的软件翻译他的话，然后把中文播放给听众。那个软件甚至能够调整语调，使翻译后的语音听起来像是 Rashid 的声音。

Rashid 认为，这是一项非常有前途的技术，“我希望在一些年后，我们能够打破人们之间的语言障碍。个人来说，我觉得这会带来一个更好的世界”。

在未来更好的世界里，你的上司很可能是一个机器人。

图片来自 Wired