在人工智能上,微软如何做到 “看上去好玩” 和 “实际上有用”?
若说这几年华语电影中最催泪的,《亲爱的》绝对可以占有一席之地。这部讲述“寻找被拐卖儿童”的电影背后,是无数个破碎的家庭和无数被拐卖的儿童。
在这个严峻的社会问题背后,难道寻找被拐卖儿童只能靠在茫茫人海中人力寻找吗?科技和互联网能不能起到一些作用?比如腾讯会在 404 页面就是一个“宝贝回家”的项目,页面会出现失踪儿童信息,增添一线找回的希望。
(《亲爱的》剧照)
在微软去年内部的黑客马拉松中,有 7 个项目是与解救拐卖儿童相关的议题有关的。
其中一个名为 PhotoMissing Children 实现思路是这样的:PhotoMissing Children 基于微软的认知服务(此前名为牛津计划)的人脸识别 API 进行开发。人脸识别 API 能够精确地判断不同照片中的人脸是否是同一个人。失踪儿童的家人可以上传失踪儿童的图片到数据库,我们中的任何一个人如果在街上看到了引人怀疑的流浪儿童,就可以拍一张照片上传到 PhotoMissing Children 以查询是否有与之匹配的儿童。
这和之前在微博上很火但争议也很大的“随手拍解救流浪儿童”有些类似,但一定程序上规避了隐私问题。后来这个项目在和 NGO 合作的过程中已经有了找回失踪儿童的例子。
需要说明的是,这个项目在技术和流程上还没有完全成熟,不过不失为一种方向,毕竟技术总是超前的。而这个 PhotoMissing Children 项目也可以看作是“从技术到应用”的典型案例。
从算法到应用,中间有多远?
自这两年人工智能成为科技热词之后,不少的企业都削尖脑袋想要和人工智能发生点儿关系。到了微软这里,作为业界在人工智能积淀最深的科技企业之一,他们考虑的是另外的一个命题:
“微软希望让每一名开发者都能够轻松运用人工智能技术。”
这句话出自微软亚洲工程院院长刘震博士。事实上,不仅是刘震博士,微软 CEO 纳德拉也在今年的微软 Ignite 2016 大会上说:
“当我们畅想科技的未来,智能与之密不可分。在微软,我们的雄心是要让人工智能走出象牙塔,普及为全民所用。”
那么,从基础的算法,到具体应用之间,到底有多少的路要走呢?为此爱范儿采访多位在不同岗位上工作的微软工程师:微软亚洲研究院软件研发工程师王君,微软云计算与企业(中国)事业部资深软件工程师邓小民,以及微软(亚洲)互联网工程院资深软件工程师陈鹏。
(由左到右分别为:陈鹏,王君和邓小民)
在 Windows 10 上,微软引进了新的解锁方式:Windows Hello,其中就包括人脸识别。王君在微软亚研中就是人脸识别技术的参与者。在她看来,自己所在的团队的定位是“桥梁团队”,连接着基础的算法和应用转化。
在她的前方,是其他团队研究出来的基础算法,经由王君所在的团队封装成基础工具包,再开发成 API( 应用程序编程接口),最后传递到她身后的具体应用层面。
王君给爱范儿举了一个实际的应用例子:打车应用 Uber 面临着一个难题就是无法保证使用 Uber 司机帐号并开车的就是司机本人,但是这个难题可以用这个人脸识别功能解决。美国一些城市的司机端 Uber 应用就用上了微软的人脸识别技术,只要打开摄像头就能确认司机是否是本人。
现在植根于 PC、平板电脑和智能手机的应用程序不计其数,其中诸多都离不开这些基础的语音识别、自然语言和计算机视觉技术。
25 年前,比尔 · 盖茨创建了微软研究院(Microsoft Research)。研究院成立初期的部分工作就主要集中在包括语音识别、自然语言和计算机视觉等在内的人工智能研究上。人工智能就是这样,既有历史渊源,又不断冲击前沿;一边是门槛高研发难,另一边则又应用广潜力大。作为整个链条中的一环,王君的工作承前启后,如果能理解她这并不显山露水的工作,那么说不定也就能理解,互联网服务越来越便利,是因为有这样大量的幕后工作者存在。
“看起来好玩”是怎么做到的?
如果说王君和她所在的团队研发的人脸识别技术用在了 Uber 这样的应用中属于人工智能中“有用”的范畴的话,那么微软的认知服务可能因为此前一波波的刷屏就更被人熟知,因为 How-old.net(微软颜龄)、TwinsOrNet.net(我们有多像?)这些有意思的应用,微软认知服务从幕后走向了台前。
牛津计划(认知服务早期的开发代号)初始开发团队成员邓小民向爱范儿(微信号:ifanr)介绍了这些有趣应用的背后小故事。
很多人以为,像是 How-old.net、TwinsOrNet.net 这样的网页应用是微软内部当作大项目来做的,毕竟就其传播效果来说,是很多有心栽花的项目都做不到的。然而,How-old.net 的诞生没那么复杂,比如 How-old.net 就只是微软的一个工程师用在 Build 大会上的小展示,核心算法就只有几行代码,整个花费的时间也只有一两天。
后来微软以此作为实验并抱着试试看的心态把这个 How-old.net 做成了网页应用,随后就在网上大火。后面的 TwinsOrNet.net 也是类似,都没有花费太多精力,但也取得很好的全球传播效果,让更多的知道了微软的这个认知服务。
但不是每一个这样的尝试都能取得这样的影响力。邓小民给爱范儿举了一个例子:比如 MyMoustache.net(我的小胡子可爱吗?)这个应用会测量用户上传照片中的胡子长度,如果没有胡子的话,应用就会帮忙设计一款出来。不过由于中西文化差异,这个网页应用在美国很火,但是在中国就没什么人玩了,这是由于美国人有蓄须的习惯,但是中国人没有。
在许多人看来,程序员群体的典型性格是没有生活情趣,木讷无聊。事实上,邓小民表示自己是个挺热爱生活的人,一方面喜欢游戏,另一方面也喜欢户外活动。而他们在生活中的所见所需,也会对工作有所影响。
比如最近微软和中科院植物所合作推出了微软识花应用,遇到不认识的花的时候,就可以打开这个应用拍一张照片寻找答案。在微软识花之前,微软还推出了 Fetch!应用,能基于照片帮助用户识别狗狗的品种。邓小民说,这些介于“好玩”和“实用”之间的应用,很多都是基于微软员工自己日常生活中的需求出发的。
当然,微软认知服务的主要工作不是做这些好玩的应用,他们目前主要任务还是给其他应用提供基础的服务。目前这套认知服务包括视觉、语音、语言、知识和搜索五大类共二十一项 API,在此基础上该服务还会持续更新并补充新的 API。
邓小民说,看到自己参与开发的认知API被广大开发者使用,并且做出各种或炫酷的,智能的应用,心中深感自豪。
小冰如何嫁出去?
前面所说的,都是微软提供的基础 API 接口。其实微软更被人所知的服务,还是要谈到 Cortana(小娜)和小冰这对姐妹,其中小冰的中国血统要更为纯正一些。
微软(亚洲)互联网工程院资深软件工程师陈鹏写过系统、调过模型、画过前端,可以算是一名全栈工程师。他 2014 年加入小冰,先后参与小冰二代、三代、四代的开发,从一开始的聊天机器人状态,到现在的小冰商业平台解决方案,陈鹏几乎全程见证了小冰的成长。
纳德拉之前说过:
“我们正在与客户和合作伙伴携手重塑业务流程,提供最好的平台和生产力服务。共同努力在这个设备、数据、智能、万物互联无所不在的新世界中赢得先机。”
某种程度上,这也是陈鹏所在思考的问题,他先后主导了京东小冰、东航小冰、敦煌小冰、小冰商业平台解决方案等项目的开发。
在不同的场合,小冰发挥的作用也不一样,比如在京东小冰中,它(她)的作用更像是一名导购,在东航小冰中,它(她)就变身为客服。不同于传统的搜索&结果,与小冰的交流更接近于自然语言。这一点在敦煌小冰中体现得尤为明显。
现在关注微信公众帐号“敦煌研究院”在对话框中可以直接发问“敦煌有什么好吃的?敦煌有什么好玩的?”,都可以得到由小冰提供的答复,这个时候小冰就成了一个导游了。
拥有可爱头像的小冰已经开始居于幕后,能够扮演的角色也越发多样。或者可以这么理解,已经和人类对话了 200 多亿次的微软小冰已经由少女步入成年,承担起更多的任务。
以上,爱范儿尝试从三位微软工程师的微观角度来解读微软在人工智能上的雄心壮志:微软尝试从基础算法,到 API 接口提供一条龙的人工智能基础架构;微软还尝试贴近生活,示范了各种人工智能在生活中的应用场景,告诉人们人工智能也可以很好玩;微软不仅考虑到了让人工智能“看起来好玩,实际上好用”,还在尝试让人工智能切入商业中去,实现社会价值。
这些侧面,也印证了前文所说的:微软希望让每一名开发者都能够轻松运用人工智能技术,以及,在微软,我们的雄心是要让人工智能走出象牙塔,普及为全民所用。
而纳德拉宏观上的考虑,也正好作为文章的结尾。微软正从四个方面思考人工智能的未来:
- 我们将利用人工智能,彻底改变我们在生活中与智能代理的交互方式。
- 我们将在每台设备的每个应用注入智能。
- 我们要在自己的应用注入的智能能力,即认知能力,也将提供给全世界每一位开发者使用。
- 我们正在建造世界上最强大的人工智能超级计算机,通过云让每个人都有机会使用,从而引导它专注应对人工智能的各种挑战。