下载客户端
下载客户端
关于我们 寻求报道 加入我们
公司 2013-11-19 08:01

独家采访微信技术团队:他们改变了微信的涵义

王超文 王超文
-

我们时常听到对张小龙关于微信设计的研究,但很少注意到微信背后的技术团队。在早期版本中,由于主打信息沟通功能,微信技术上并无亮点,直到 4.3 版本之后,语音识别、扫一扫功能陆续的加入,新技术加上传感器的结合正在重新定义微信。

在昨天的“微信·公众”合作伙伴大会上,微信发布了语音开放平台,正式跳出微信范畴,与科大讯飞、云知声等语音公司进行竞争。同时在本次大会上,微信通过展示控制冰箱、印美图、电视等设备,凸显其在物联网中发挥枢纽作用的潜力。

微信的这些技术团队都归在模式识别中心团队里,在爱范儿之前的独家采访中,详细的剖析了这个团队的工作领域、在微信迭代中扮演的角色。那次采访我们还了解到了不少关于技术方面的信息,趁着这次“微信·公众”合作伙伴大会召开之际发出来。

模式识别中心在应用层上有 2 大块,分别是语音和扫一扫,在微信团队看来,它们是人身体的延伸,有着很高的战略意义,所以必须有自主核心技术。

语音是站在了更高的起点上

微信语音识别给人突然冒出来的感觉,它的带队人是卢鲤,中科院博士毕业,研究方向是语音识别这块。2011 年苹果发布 Siri 后,语音一下子被大家重视起来,这其中也包括腾讯。腾讯在 2011 年底将语音识别作为科研项目在北京研究院启动,卢鲤进入腾讯带队,带领 3 个人进行攻坚。

其实从技术上讲,老牌的科大讯飞虽然积累了十年,但是由于相关的行业论文在技术研究上已经大大进步,知识储备更齐全,所以卢鲤算是站在一个更高的起点上,可以做到速度比科大讯飞快得多。

另外,按照云知声创始人梁家恩的说法,语音识别是“会者不难”,懂的人做起来要容易得多。卢鲤和梁家恩也互相认识,都是中科院出身,百度、搜狗的语音负责人也都是来自同门。

当然,做技术攻坚,其中的辛苦也是不为人知。语音识别技术从简单,到可以用,再到好用,中间是一个漫长的过程。卢鲤把每半年算一个节点,从研发开始到微信 5.0 发布,总共 3 个节点,每一个节点性能都有 40% 的提升,但是直到最后那个半年,语音识别才有真正的质变。

“这就相当于一个人吃了 9 张饼没吃饱,吃了最后一张饱了。”卢鲤说道。

这期间,他们经历过两次封闭开发,也有过张小龙的“循循善诱”。据悉,产品上线后,用户数量上升曲线都很健康,使用率很高。

在微信 5.0 的语音转文字功能中,很多人发现它的表现不输科大讯飞。腾讯在语音识别这块虽然起步不早(不到 2 年),但是在实际应用上已经走在了前列。

以自然的方式融入产品

Siri 虽然发布很成功,引爆了这个市场,但是最终却沦为用户调侃的对象,属于半成品。而语音该如何在微信中呈现,避免言过于实的现象,不仅考验着技术,还考验着产品能力。

卢鲤认为,语音是不是入口不重要,也不在乎,在乎的是语音识别能做什么事,就像从一个地方到另一个地方,最重要的是能到达,而不是中间发生了什么。

语音在微信中的呈现形式有三种:语音搜索通讯录、语音闹钟、语音转文字。从微信 4.3 到微信 5.0,语音的介入在一步一步深入,但同时也是受到严格限制,仅限于指定的功能,他们认为一旦放开使用范围,很容易面临华而不实的境地。

Siri 包含了语音识别、语义识别、搜索等,形成一个闭环,大多数语音 App 也是如此,但问题是,Siri 等产品暗示着用户可以做好任何事情,在技术还没准备好的情况下,产品很容易变为鸡肋。微信的考虑是反其道行之,让用户明白只能做这些事情,不要制造额外的期待。而且语音与通讯工具的结合,天然更加默契,卢鲤觉得:

“通讯录语音搜索,这在微信里是多么的自然。”

随着微信·公众合作伙伴大会的召开,微信的语音终于平台化,并加强垂直领域的体验,这都为微信商业化缔造了机会。他们接下来的研发目标仍然是提升精准度,完善技术细节,与人脑进行“PK”。

扫一扫的新技术有很多

IMG_1077

微信扫一扫负责人刘海龙

按照扫一扫负责人刘海龙所说,扫一扫功能可以识别图像、文字、人脸、物体检索,甚至是增强现实,目前微信只推出了文字、图像识别,这是很多因素综合的结果。值得注意的是,微信扫一扫是采用视频的方式,数据在实时进行着传输,不借助本地的资源,扫一扫功能虽然是来源于之前推出的 App 搜搜慧眼,但后者仍然是拍完照再上传识别。

实时自动的检测,让用户操作少了一步,就像摇一摇搜歌,结果会实时显示歌曲播放的位置。从上传后识别到实时识别,这并不是简单的技术迁移,这考验着对流量、处理速度的要求,以及云数据库搭建。这样做的好处不仅提升用户体验,而且使得前端轻,重活交给后端,以尽量让微信保持轻量化。

在扫一扫这块,微信可以说储备了一大批新潮的技术,包括名片识别、人脸识别、实景识别、物品检索、增强现实等。现有的街景扫描中,微信是根据你的地理位置而不是图像匹配,但刘海龙说,实景扫描这个是可以做的,但问题是这一功能需要大量流量和高速传输的网络,目前还不适合上线。4G 的上马将是很多新应用的机会,目前很多的工作还在与流量较劲。

扫一扫为何要放 5 个功能,为何二维码、条形码没有归一类?这背后同样是微信对产品设计的思考。刘海龙认为,5 个按钮清晰的告诉用户可以做什么,同时也提醒用户,只能做这些事情。扫一扫功能的理想状态应该是用户需要时出现,不需要时不出现。

以后,如果流量问题解决了,扫一张电影海报不再是指向影评网站,而是人从画面中走出来,自动播放预告片等。另外,物品检索、商品扫描等,这些事以前 PC 都做不了。

扫描的未来是让摄像头成为人类视觉的延伸,连接现实与虚拟世界,由于占据了极其重要的地位,微信的扫一扫很快会变得更加强大。

可以肯定的是,很多功能内部已经在逐个测试,视成熟度、用户需求是否上线。据说微信一次版本更新前会制作几十个版本,从中挑一个最好的版本上线。甚至,他们还会制作一个搭载新功能的微信推送给 100 万测试用户,研究使用率,语音转文字功能正是这样测试通过的。

微信快节奏的版本迭代并没有让他们工作状态太过辛苦,做前沿研究,和算法有很大关系,死憋是做不出来的,需要闲暇状态下的灵光一现,一旦想通了,做起来就快了。但由于有了微信,他们几乎是 24 小时在线,随时沟通工作。

在采访中,他们多次提到得益于微信平台,他们的技术才能有如此大的应用空间。微信紧贴用户,通过对摄像头、麦克风以及其他传感器上进行应用挖掘,已经大大改变微信的内涵,微信不再是通讯工具,而是个人和企业的服务助手。

 

题图为微信语音团队负责人卢鲤

文章评论(-)
后参与讨论
正在加载中