微软最新的语音识别系统的准确度比人还高

在最近大热的 HBO 电视剧《西部世界》中，工程师们在和真假难辩的机器人交互时就是直接通过一般的语言实现，虽然时不时还是会出现特定的系统口令，但总体而言，还算沟通得非常自然。

ww-1

《西部世界》中工程师与机器人交互，出自 HBO官网

但环顾现有的带语音识别能力的系统，无论是苹果的 Siri、亚马逊的 Alexa 还是微软的 Cortana，用户在使用起来多少还是经常想砸手机，因为它们经常擅自“自动纠正”用户话，可见要简单地做个好的“听写员”实在是不容易。

10 月 17 日的时候，微软发布了一份名为《达到与人类具备同等交流对话水平》（Achieving Human Parity in Conversational Speech）的论文。该论文宣称，他们在语音识别上的技术已经高于专业的人工速记员了。

For Microsoft Technology and Research: A research team photographed in Microsoft's Building 99 in Redmond, Wash. on Thursday, October 13, 2016. Photo by Dan DeLong

微软研究团队，图片来自微软官网

为了能够进行比较，微软的研究人员找来了一段它们具有正确脚本的音频片段，并请来了一家第三方公司来进行语音转文本处理。这个第三方公司的操作方式分为两部分：一名誊写员边听音频边将内容打出来，而另一名则一边听音频一边修正第一人提供的文本。随后，根据和标准的正确文本对比，第三方公司的错误率分别是 5.9% 和 11.3%。

而微软的识别系统，在经过 2000 小时对人类交谈素材的学习后，针对同一份音频材料进行了语音识别，错误率分别为 5.9% 和 11.1%，数量上来看，比人类对照组少了十来个错误。

speech-recognition-20161019-1

图片来自微软官网

虽然这次测试的成绩不错，但毕竟处理的音频材料与真实生活场景的贴近性还是比较遥远。而微软的研究人员也表明，下一步会将该系统放在带有部分背景噪音的场景中，例如在派对或是在高速公路上行驶的汽车上。同时，人类对照组的可参考性也还需要考究。但无论如何，希望这次的针对语音识别的研究突破不会成为那种被报道一次之后就消失的信息。

题图来自 QUARTZ