即使吐字不清,Google Now 也能 “懂” 我的需要

新创

2015-09-25 17:34

爱范儿在之前的一篇文章中曾详细介绍过 Siri、Cortana 和 Google Now 之间的区别,总体说来,Google Now 算是目前市场上最为成熟的语音助手。现在,为了精益求精,Google 官方搜索部门又推出了它的更新版本。

现有的声音模型主要依赖于 LSTM(Long-Short Term Memory),作为一种长短期记忆人工神经网络,它可以视为 RNN(recurrent neural networks)的一种特殊延伸。和其他的 RNN 相比,LSTM 在记忆单元和门控机制上有着独特的优势,能够记住更多的信息。

rnn

(RNN 结构)

在这之前,Google Now 采用的是 DNN 技术,这也是目前市场上最为流行的技术,再之前则是称霸了整个行业 30 年之久的 GMM(the Gaussian Mixture Model)技术。

前浪死在沙滩上,一代更比一代强。

现在,依靠更加成熟的 LSTM 技术,Google Now 的语音识别功能更快也更精准,哪怕是在噪音环境下,也有着不俗的表现。

另外,针对音素预测(phoneme prediction)会有 30 毫秒延迟这点,Google 搜索部门特意对其进行了训练,使其更接近实际速度;而 feedback loop 功能则可以在瞬间吸纳你说的所有单词及声音,即使有些发音你并没有完全发出来,它都可以将这个单词变得 “一气呵成”。

inset

(feedback loop)

——也就是说,可能你话还没有说完,它就已经知道你要说什么了。

目前 Google app 上已经增添了这一服务,Android 或 iOS 用户均可使用。

 

题图来自:apnatimepass    插图来自:droid-life

登录,参与讨论前请先登录

评论在审核通过后将对所有人可见

正在加载中