【更新】柳传志、李开复谈科大讯飞和语音识别那些事儿
3 月 22 日下午,科大讯飞在北京国家会议中心发布新一代“语音云”平台,“捎带”发布了“中文版 Siri ”应用讯飞语点。
这里用“捎带”形容现场的情况是最恰当的:科大讯飞 CEO 刘庆峰作完演讲后,邀请大家共同开启“语音云”时代,掌声落毕,他马上补充说“抱歉,忘了一个环节”,然后由工作人员从台下拿上来一部智能手机,开始演示“讯飞语点”的 Demo。这个桥段让人不由得想起乔帮主“One more thing…”的遗风。
科大讯飞的“语音云”平台是面向开发者和合作伙伴的,今天不是第一次发布,早在 2010 年 10 月就已经发布了第一版(当时股价大涨)。但今天的大会无疑是讯飞“开发者大会”历史上最火爆的一场,根据讯飞副总江涛(活动现场总指挥)的估算,现场“来了 2000 多人”。我下午 2 点半进场,那时工作人员还在不断地添加凳子,讯飞的人员在跟国家会议中心工作人员沟通:“实在出乎意料,来的人太多了”。
“语音云”发布会
发布会很精彩,我已经联系了江涛,请他提供刘庆峰在现场演讲用的 PPT(更新:PPT 全文或前往微盘下载)。在现场我也拍了一些 PPT 照片,与大家分享。
首先来看一张发布会之前的观众席照片,微博上有评论说“比腾讯的场子都大”。国家会议中心的四层大会堂 B 大厅座无虚席,甚至开放了第二层。江涛在微博上的评论是“感谢苹果对市场的教育”。不过与现场的热度不同,资本市场反应冷淡,甚至股价还下跌了 0.2 元人民币,跌幅 0.53%,报收 37.7 元。
这是一些采用讯飞“语音云”技术的应用,包括新浪微博、搜狐微博、365 日历等等。我们采访过的虫洞也是采用讯飞语音云技术,但虫洞在其上面进行了优化。根据刘庆峰现场的介绍,科大讯飞开发伙伴达到 3100 家,终端用户超过 3000 万,日请求量超过 700 万次。
科大讯飞现在支持多国语种识别,也支持国内的方言识别,在美国国家标准技术研究院(NIST)的语种识别 9 项评测中 7 个排名第一。而语音合成系统方面,也支持了中、英、法、俄等语言。
现场刘庆峰播放了一段合成后的《新闻联播》开场片头,当时发布会时间是 3 月 22 日 15 时 19 分,视频中出现的声音是“欢迎收看 3 月 22 日新闻联播”,如果不仔细听的话,还真的以为是李瑞英、康辉的声音。我听到 3 月 22 日的时候,特意看了手机上的时间——15 时 19 分,离新闻联播开始还有 3 个多小时嘛;不过后来康辉说的话多一些的时候,就听出破绽来了。
发布会现场刘庆峰毫不避讳地与竞品进行了多项参数对比(用字母来隐晦表示公司名称),科大讯飞在多项比赛和测试结果中排名第一。当然,发布会开始前宣传短片中,“中文语音识别该由中国人来做”的口号更能挑起人们的兴奋神经。大家猜一下下图中 N、G、Q 分别是哪个公司?我猜 N、G 一个是为 Siri 提供技术的 Nuance,另一个是 Google。
柳传志寄语创业者
3 月 22 日发布会结束之后,安排了一个高峰论坛,邀请到柳传志、李开复和雷军(南赴珠海领取“荣誉市民”未能到场)来谈“语音时代”。主持人是《商业价值》的主编张鹏。
柳传志是科大讯飞寻找投资的“贵人”,柳传志看着科大讯飞长大。而科大讯飞是联想投资成立后“按照正规流程”投资的第一家企业,2001 年的签约仪式也是当时柳传志唯一出席过的一个。
科大讯飞是一家安徽公司,前身是“安徽硅谷天音信息科技有限公司”,创始人刘庆峰原来是“中国科技大学人机语音智能多媒体实验室”的主任,1999 年 6 月响应团中央“关于大学生创业”号召,率领实验室团队创办“硅谷天音”,注册资金 300 万元人民币。1999 年 12 月 30 日“硅谷天音”更名为“科大讯飞”,重新注册后,加上 3000 万元风险投资,公司注册资金变为 5000 万。2007 年完成股份制改造,一年后 2008 年 5 月 12 日在深圳中小板上市。
2001 年 6 月 6 日联想向讯飞投资 800 万元,实际投入 2533 万元。2008 年 5 月 12 日上市时,联想持有科大讯飞 880 股股票,占比 8.21%,在上海广信 13.24% 之后;当时刘庆峰本人持股 761 万股,占 7.10%;科大讯飞管理层共持股约 20%。
2011 年苹果 iPhone 4S 发布后,借 Siri 的东风,科大讯飞开始慢慢走入普通人视野。在受到大众关注之前,讯飞已经做出了“讯飞语音输入法”这样面向普通用户的 app 产品,但其风头显然不及 Siri 教育大众后,今天下午发布的“中文版 Siri”讯飞语点。
柳传志讲自己投资的理念是“事为主,人为重”,他夸赞刘庆峰,说他“有理想、有胸怀、有能力,有强烈的把科技成果转化为产品的意愿”。不过在讲台上,柳传志并未一味夸赞,也提了新要求,比如增加语音识别的复杂度,“我现在出去跟别人演示,只敢选择简单常规的问题进行示例,比如‘明天什么天气’,但生活更加口语和随意,这一点是讯飞应该加强的方面”。
主持人问到柳传志对互联网创业者的寄语,他的回答是“用做实业的态度做互联网”。“创业之前,问题要想清楚,要想盈利模式,仅靠人气劲儿、烧钱是不对的。而拿了投资后,也要算准钱能烧到什么时候。如果你创业筹来的钱太不容易,‘钱太重’,就要谨慎选择创业。其实创业失败并不是什么,我投的 200 多家企业中,不少是经历失败,吸取经验再创业的;即使后来你不再创业,创业过程中积淀的经验,对于你以后在公司工作也是很大的提升。”
柳传志也以自己的经历,勉励创业者保持“专注”:
身边很多朋友赚了很多钱,我也可以赚很多钱。当年 96、97 年民生银行投资的时候,我被认为最有可能第一个投资的,但我没投。据别人替我估算,如果当时投了那 1 亿多,现在的回报是 2000 多亿,我觉得我不必后悔,身边不断有这样的事儿出现,你说它是好事,它是坏事?这还真不好说,因为我投资赚了这笔钱以后,我也许会想去投房地产、去做别的更多的事,电脑这条路可能做不成,也许到最后什么都可能做不成。
李开复谈语音识别技术
李开复是第二名上场的嘉宾。众所周知,李开复是著名语音识别技术专家,谈到语音识别,当然少不了由他来现身说法。
事实上,在讯飞发布会之前,李开复曾在微博上对市面上存在的众多“中国 Siri”提出四个疑问:
1)智能手机主界面是手触,语音助手解决了什么真正用户需求和痛处?2)如何克服后台海量数据学习技术门槛?全球只有一个公司有这个技术。3)应用谁开发?自己开难扩张,用别人的应用整合不佳影响体验,4)语音服务器和带宽成本较大,如何克服?
今天发布会结束后,李开复更新微博:“讯飞语点推出后,2、4 由讯飞解决了”。
事实上,在之前科大讯飞向爱范儿提供的独家稿件中,讯飞一一回答了四个问题,3 月 22 日发布会用实际产品进行了回应。详细内容见文末引用部分。
李开复的“炉边谈话”提供了很多“专家式”的内容。简单整理成问答形式如下。
问:我们看到讯飞语音识别的技术已经非常成熟,那么你认为“应用”的空间在哪里,未来语音识别技术还有什么挑战?
李开复:云端识别技术,讯飞已经解决了。“应用”在哪里?这并不是一些专家在实验室里拍脑袋就能想到的。大家可以来试,可以在讯飞的云平台上试一试,可能成功的会比较少,但能够摸索到成功的应用的概率也会增加。
语音技术方面,主要挑战还有三方面:
- 一、语音识别相对容易,但语义理解相对困难。让软件听懂容易,但理解会比较难。
- 二、如果能在一定程度上做到语义理解,那么怎么样让开发者介入不用太花时间?
- 三、用户体验的期望值。语音是人类最自然交流的方式——与多点触摸不同,一旦人们开始使用语音交互,会有比较大的心理预期:我爱怎么说就怎么说,你应该能理解,这是一个比较长久的挑战。这中间,应该有巧妙方式来降低这种感受。
问:语音技术里面,是不是使用的人越多,语音技术也会愈加成熟?
李开复:当然了,更多人参与,获得更多自动回馈,可以实现一个良性的正向循环方。一个人能力有限,一亿用户,每人使用 3 秒钟,就是 3 亿秒,这个数据量是庞大的。实际应用中,正确的输入可以被视作是“一次正确训练和学习”,吸收改进;一个错误的结果,比如订餐时识别错误取消订单,可以视作“不正确的学习”,同样吸收改进。
但这个比“听写”更困难:错了,是语音错了还是语义错了,或者其中一个正确、一个错误;对了,是语音对了语义对了,或者其中一个正确、一个错误。当回馈量大于累计量和使用量,可以让我们迈出一大步。
问:什么样的语音应用是用户期待和接受的?
李开复:我认为有三个方向。1,相对是语音识别,而非深度语义理解的应用,或者说“浅语义,深语音”。比如听写(Demo 中有提到教育领域的听写测试、KTV 评分、发短信、日程提醒),——输入法也很重要,这个比较保险。
2,娱乐性应用,比如 Siri 这样的调侃调戏类应用。这种识别错了也无伤大雅,很爱使用。苹果很聪明,用调侃 Siri 录了很多语音,然后慢慢把真正的应用做好。
3,在一些“眼忙手忙”的场景,这个时候语音需求就会很大,比如驾车的时候,这时候是不能多点触控的,这算一个“刚性需求”的场所。
在这里我建议开发者:想把语音放进来的时候,不是那么容易,因为语音的 API 和语音的用户体验,比一般的 API 要难很多,比如百科全书类、地图、本地商家,O2O,线上模式拉来线下消费,因为有语义部分在里面,要花很多时间去把它调好,不能用简单的 API 随便联接起来。
附:科大讯飞对李开复“中国 Siri 路在何方”的回应稿件
第一,语音助手能够解决什么真正的用户需求?
大多数人提到 Siri,第一印象就是调戏 Siri,但如果一个产品只是用来“调戏”,那这个产品充其量只能算是玩具,而不是人们所必须使用的语音助手。所以,Siri 的定位应该是解决用户的真正需求和痛处。
可惜,目前 Siri 的模仿者大多视这个需求而不见,而是关注如何才能更好的“调戏”用户。相信只有真正做到解决用户需求的产品,才能够获得用户长久的喜爱,希望国内的开发者能够注意这个问题。
Siri 想要实用,就必须调用开放数据的平台,而中国却没有 Wolfram Alpha 这种引擎,所以中文 Siri 想要真正解决用户需求,只能一家一家去谈,比如找大众点评、百科等。这是创业公司做不来的,而大公司(百度、腾讯等)来做,可能又存在利益冲突。
第二,如何克服后台海量数据学习技术门槛?
虽然李开复老师说全球只有一个公司有这个技术,而我们也不知道这个公司具体是指哪一个。但据我了解,在语音识别方面,科大讯飞是做的不错的,讯飞语音输入法的识别率已经达到 85% 以上。而且他们的语音识别是基于云计算实现的,应该是具备数据学习能力的。
除了语音识别,还有一个难题是语义理解,这也是中文 Siri 的核心难题。让机器真正理解人的语言,这是一件很困难的事。就目前来看,苹果在英文方面都没有很好解决,不然也不会有用户要告苹果虚假宣传了。但苹果可以依靠“调戏”用户获得大量语料,然后学习后提升可用度。
可见,语义理解是一个需要不断优化的过程,每一个用户的参与都将对智能语义理解的完善做出奉献。
第三,应用谁开发?
Siri 的前提是要有语音识别功能,这个功能的门槛之高,已经让很多开发者望而却步。幸好,国内有科大讯飞的语音云开放平台,为普通开发者提供了语音识别和语音合成的功能,让中文 Siri 的开发有了基础,智能 360 和 Airi 等产品就是基于讯飞语音云平台实现的。
作为普通开发者,使用语音云平台研发产品是很正常的。但如果真的想做成 Siri 这种大众性应用,核心技术却掌握在别人手里,这是致命的问题。所以,真正能够做出中文 Siri 应用的,应该还是科大讯飞这种掌握核心技术的公司。
第四,语音服务器的成本太大?
语音服务器的成本问题对于创业公司来说,确实是个大问题。但事实情况是,需要承受这个压力的,可能只有科大讯飞和谷歌,因为一般公司目前连语音技术都没有。
科大讯飞在 2010 年推出了开放的语音云平台,目前用户规模已经达到 2500 万。3 月 22 日,科大讯飞还将发布新一代的语音云,可见科大讯飞对于语音云开放平台的投入力度很大。作为一家上市公司,相信科大讯飞还是有实力克服用户扩张带来的服务器成本和带宽压力的。