腾讯挖来微软语音识别专家，成立西雅图 AI 实验室 “搞事情”

如果你不喜欢收听微信的语音信息，可能也会因此试用过微信的语音转文字功能。如果对方普通话标准，识别出来的内容还算是能够理解，这还得归功于腾讯在语音识别等人工智能（AI）方面的研究。

如今，为了进一步 “升级” 技能，腾讯更是从微软挖来一位在语音识别与深度学习领域的专家——俞栋。作为腾讯 AI Lab 副主任，俞栋将管理新成立的美国西雅图 AI 实验室，负责推动腾讯在语音识别及自然语言理解等 AI 领域的基础研究。

加入腾讯前，俞栋担任微软研究院语音和对话组（Speech and Dialog Group）首席研究员。

（俞栋）

他是 2011 年发布的论文《Conversational Speech Transcription Using Context-Dependent Deep Neural Networks（使用上下文相关深层神经网络进行交谈语音转写）》的主要研究人员。

该论文提出了基于人工神经网络的语音识别新方法，实验结果证明，这种新方法大幅降低了语音识别的错误率，将沉寂多年的人工神经网络再次引入语音识别研究领域，开启了语音识别的深度学习时代。

这项工作（将深度学习的方法引入语音识别领域）一开始受到很多怀疑，很多同事或者朋友都经历过 80 年代末 90 年代初，神经网络从高潮跌落到低潮的过程，所以他们都对此有一定的怀疑。

俞栋回顾道，但在两年后，许多公司却开始重复他们的研究工作，并发现那对识别率有很大帮助。随后，通过深度学习，微软团队在语音识别上也在不断突破：

（图自微软官网）

2016 年 9 月中旬，微软报告了在语音识别方面取得的新里程碑：在 Switchboard 这一电话交谈基准测试集上新系统的识别词错率降至 6.3%；一个月后，微软又公布了在这一基准测试集上成功实现了历史性突破：他们的语音识别系统词错率（WER）和专业转录员相当甚至更低，达到 5.9%。

当被问及为何会选择和腾讯合作，俞栋表示，他认为腾讯在研究语音识别方面有自己的优势：腾讯具有大数据来源，同时也具备运算能力，有出口形成反馈机制进而优化产品，有落地的场景。与之同时，腾讯还能满足他更偏向研究的喜好。

更偏研究的西雅图实验室

在 2016 年 4 月，腾讯正式成立 AI Lab，旨在推进人工智能技术研究，且发展相关应用场景。

AI Lab 聚焦四大领域的基础研究，包括：计算机视觉、语音识别、自然语言处理与机器学习。并将相关技术应用于具有腾讯特色的四大业务场景中的应用能力：内容 AI、社交 AI、游戏 AI 和平台工具 AI。

（图自腾讯）

深圳 AI Lab 注重将基础研究结果和应用场景快速结合。相比之下，由俞栋带领的西雅图 AI Lab 将承担一些语音识别和 NLP 的基础和前沿研究工作，并试图解决这些领域更困难的问题。

虽然这个研究方向下，研究结果和实际应用结合过程可能会比较漫长，但语音识别的基础性研究与腾讯重社交和交互的业务来说非常重要，无论是游戏、微信、QQ、物联网等，都可用上语音识别。因此这次布局也是战略之举。

如果要在技术研究上取得突破，确实需要有一定耐心，相对来说长期稳定的投入，西雅图这边基本上秉持这样的理念。

我们希望长远来讲，能够创新性地攻克关键的、主要的技术难题，在真实应用场景里有很大的性能提升。但是因为我们没有办法预测到底哪天能成功，我们希望在每一个阶段都会有一些进步，这是我们唯一可以定义的一些进步，但是这个进步会有多大，也是没有办法比较明确说出来的。

俞栋如此说道。而作为西雅图实验室负责人的首个任务，俞栋目前正在招揽团队成员中。

题图来自云掌财经