祝铭明:摸到边界的方法是把体验做到极致

人物

10-25 17:50

多年以后,祝铭明站在自己刚刚装修好作为住宅的厂房里,一定会想起母亲带着他去机械厂里玩的日子。

当时,创业还是一个新鲜而陌生的词语。身为工程师的母亲和朋友一起创办了一间机械加工厂,还在襁褓中的祝铭明,就在这间工厂浓重的机油味和隆隆的机床声中一天天长大。

13 岁那年,祝铭明拥有了自己的第一台电脑,写下了人生中第一行代码。

这一年,发生了很多大事。

万维网(World Wide Web)诞生了,GPS 的第一颗卫星发射升空,IBM 的国际象棋机器人深思虽然败给了棋王卡斯帕罗夫,却展示了惊人的计算速度:每秒 200 万步。

人们隐约感到,一些重要的变化正在发生,一个前所未有的时代就要来了。

顺势而为的首次尝试

2007 年,祝铭明开始第一次创业,在杭州创办了做手机操作系统的猛犸科技。那还是一个 MTK 平台和山寨机大行其道的年代,祝铭明判断未来的手机系统一定是一个开发方便、跨平台、基于 JAVA 语言的操作系统。

刚开始,都大家感到不可思议,靠一个十几个人的小团队,就想做操作系统?祝铭明花了几个星期时间把架构搭了起来,其他人随后往里添加东西。猛犸 OS 的雏形竟然就这么做出来了。

但是全球金融危机也来了。

大环境一下子变得很冷,行业的发展速度骤降下来,手机硬件水准在一个算力明显不够的平台上停留了很久。硬件上不去,操作系统也就无从发展,猛犸 OS 和祝铭明都进入了一个很难熬的阶段。

作为创始人,他还得很淡定地见客户,给团队打鸡血鼓舞士气,用产品体验和用户的口碑来激励他们。

这一熬,就是一年半。

后来是阿里巴巴伸出了橄榄枝,先是战略投资,然后收购了猛犸科技。猛犸 OS 也逐渐变成了阿里 YunOS。

从这个项目开始,他展现出后来令投资人和创业伙伴们颇为称赞的前瞻意识。

2013 年,看重祝铭明的技术前瞻性,阿里巴巴委任他为 M 工作室的领头人,进行一些在当时颇为前沿的探索,包括机器人、图形图像识别、二维码扫码等,还有跟导航、车载相关的,以及最新的蓝牙技术。

M 工作室更像一个实验室,没有太多的业务压力,牛人很多,是所有厉害的程序员都梦想要去的地方。但这些并没有让他满足。

比别人高十倍」的要求

2014 年,祝铭明离开阿里,创立了 Rokid。

这一次,他跟团队说要做机器人和人工智能。

此时的人工智能行业正处在巨大的变革期,其中最具突破性的深度学习技术开始真正商业化。2014 年初,Google 花 6 亿美金买下了人工智能初创企业 DeepMind。微软也在这一年发布了「微软小冰」。

祝铭明给 IDG 资本副总裁楼军画了一张产品草图,是一个蛋形的音箱。

在杭州北部软件园的 Rokid 办公室里,这个蛋变成了一个快递箱,上面插着电路板、摄像头、灯珠,还有国内第一个实现远场语音唤醒的的麦克风阵列。十几个人围在纸箱周围,讨论要给它加上什么新能力。

2014 年 11 月,这个插满电路板的纸箱,进化成了 Rokid 的第一款产品:Alien 智能音箱。

▲ Rokid Alien 智能音箱。 图片来自:Rokid

就在 Alien 研发的过程中,Rokid 团队第一次领教了祝铭明的「苛刻」。

在设定音箱唤醒词的时候,技术团队给祝铭明提了三个选项:如果用 4 个字的唤醒词,有现成的技术方案;3 个字的,大概一个月就能搞定;如果要 2 个字的唤醒词,对不起,目前的技术水平还做不到。

祝铭明认为,只有用两个字唤醒才符合中国人的习惯,他选了「做不到」的。

在算法上,随着唤醒词字数减少,要在保证唤醒率的同时降低误唤醒,技术实现的难度会呈几何倍数上涨:每减少一个字,难度翻倍。

为了减少这一个字,Rokid AI 实验室的两位博士被「虐」了整整一年。最终使 2 个字唤醒词达到同类产品 3 个字、4 个字唤醒词同等的唤醒率和误唤醒水平。

直到现在,在众多智能音箱中,只有 Rokid 实现了两个字的唤醒词。祝铭明认为这是 Rokid 赋予自己的使命,去做其他公司不愿意做的一件事:探索自己能力的边界。

在做 TTS(语音合成)的时候,几乎同样的事情再次发生。

行业内做 TTS 的一般方法是,首先设定好语音的条件——性别、年龄、音色,然后找演员,选个报价合适的录音,录完了让算法工程师一合成就行了。

Rokid 则先设定了「若琪」的人格,然后找了 50 多个人来,听谁的声音最像他们想象中若琪的声音,第二步从中挑选了 5 个人分别录音,再用算法合成,听合成出来的声音,挑选最接近「若琪」设定形象的,最终选了一个人。为了保证录音音准,Rokid 专门找来一位音乐学博士,在北京的实验室里一蹲就是一个多月。女演员在录音棚里录音, 博士在外面用耳机监听,稍有音准不对,就重新来过。就这样盯着把两万多句录音一句一句录完。

最终合成完之后,大家一听效果非常明显,这就是人声,完全听不出一般机器合成的卡顿、异样的声音。

如果说,唤醒词和 TTS,都是用户能直接感知到的,还值得花大代价去提升用户体验,另一件事看上去就有点过分了——

▲ Rokid Pebble 电路板。 图片来自:Rokid

这是 Rokid Pebble 智能音箱的内部电路板实拍图,同时也是 Rokid 公司高管用在电脑和手机上的壁纸。

电路板深藏在产品内部,普通用户压根没有机会接触到它,为什么要设计得如此精致?

Rokid 副总裁向文杰说,这块特别设计的电路板,每一块成本增加了 6-12 元,为了控制整体成本,他们在算法上进行优化,降低了对部分元器件的性能要求,这才把成本控制住。

宁可费力优化算法,也不在产品设计上妥协。祝铭明认为,这不仅仅是一个审美偏好的问题,还关系到一个产品从外到里都要坚持同样严格的标准,哪怕在普通用户看不见的地方。

他说:「我希望把团队逼到边界上。你永远要求你的东西比别人能做到的高十倍,最后你将取得一个跳跃性的成果。」

祝铭明深知,进入人工智能这个行业里的玩家,大多是 Google、Apple、Facebook 这样的巨头们,要钱有钱,要人有人。和他们在同一个赛场上竞争,必须有一套完全不同的思考方式,这也逼得他反复地问自己三个问题:

有什么是别人做不到而我们做得到的?

有什么是别人做得到而我们做得更好的?

有什么是别人做得非常好了,而我们能做得不一样的?

正是在追问这些问题的过程中,祝铭明坚定了「追求极致体验」的信念;也正是这样的思考,让他越发清晰 Rokid 与同行们的不同之处。

极致并不是技术洁癖

唤醒词也好,TTS 也好,像画作一样的电路板也好,背后都映射着祝铭明对 Rokid 的定位:

Rokid 是一家人机交互公司。我的追求是一定要逼着团队去摸到行业的边界,既然是交互公司,最简单的摸到边界的方法就是把功能做到极致、把体验做到极致。这不是我的洁癖,而是一种手段。

从 2014 年创办以来,这个定位就没变过。

在此之前,还没有哪家公司把自己叫作「人机交互公司」。曾经,「交互」两个字是用在鼠标、键盘乃至触屏之类的硬件上的,那时它还有另一个名字叫「输入输出」。而到了 AI 时代,祝铭明看到了交互的更大可能性。鼠标键盘也好,触屏也好,并不真正知道你在做什么,它也不干预你的任何决策。但有了 AI 之后就不一样了:

你对着音箱、眼镜、电视,对所有东西讲出你的意图时,实际上在你获取内容之前,你的意图先在交互这个层面被理解,这个时候交互公司就变得有厚度了。

机器进化了,人和机器之间的关系也悄然改变。

作为人和机器之间的一座桥梁,「交互公司」的重要性正日益凸显。从某种角度看,我们今天之所以能容忍人工智能不时地以「人工智障」的水平给出一些令人啼笑皆非的答案,正是因为我们对它的未来充满了期待,我们像看一个孩子一样看待今天的 AI——它还很幼稚,但它正在以惊人的速度成长起来。

或者,用祝铭明的话说:AI 现在还太早,要做一百年。

在祝铭明看来,未来的人机交互一定会越来越自然,越来越多模态、全方位。AR 把感知、体态、语音和视觉全部整合在一起,可以看作是人机交互的最后一次革命。至少,在实现脑机接口之前是这样。

2013 年,祝铭明在美国第一次拿到 Google Glass,对身边的人说:「这个东西是未来,但是 Google 做得不够好。我们一定可以做得更好。」然后,他发了一条朋友圈:「谁懂这个技术来找我,我们一起来做 AR 眼镜。」

2016 年,祝铭明跟团队说要做 AR 眼镜,团队都不理解。

当时看起来也不是一个好时机。Google Glass 的体验远低于预期,得了一个「Google 史上最差产品」的称号,HoloLens 笨重且昂贵,MagicLeap 还没拿出第一款产品。

祝铭明坚定地认为 AR 是未来。

接下来,他在美国组建了专门的 AR 研发团队。

▲ Rokid AR 研发团队. 图片来自:Rokid

像做音箱一样,祝铭明对 AR 眼镜的「体验」仍然要求到极致:要做到跟普通眼镜一样的佩戴感。

技术人员发现,要满足这个要求,结构上必须选择「侧出」式设计,也就是光机位于镜腿的一侧;如果采用光机位于镜框上方的「上出」式设计,就会让整个眼镜看起来像一个厚重的机器,完全达不到「普通眼镜的佩戴感」这个要求。

不仅如此,为了尽可能贴近普通眼镜,就要在做到大视场(FoV)的同时尽可能减小体积,还要控制发热量。市场上能买到的的现成部件大、重、粗,根本满足不了要求。他们只剩下一个选择:对几乎所有部件作特别定制。

▲ Rokid Glass。 图片来自:Rokid

2018 年 CES 消费电子展上,Rokid Glass 面世。整机重量 150 克,外观看起来就像一只普通的墨镜。外媒对这只眼镜的评价相当高,Wired 称它是当年十佳电子产品之一。The Verge 则说 Rokid Glass 预见到了未来。

探索突破让人上瘾

Rokid 的愿景是「Leave Nobody Behind」,不落下任何一个人。这句乍听之下有些费解的话,背后是祝铭明对科技另一面的思考。

2018 年,公司中高层在千岛湖培训,祝铭明跟大家讲了一件发生在自己身上的事。

一天,祝铭明的父亲突然打电话给他,问他:「任意键是哪个键?」

这个故事引起了共鸣,父母那一代人大多不会用最新的科技产品,而当这些产品建构起来的生活方式成为主流时,他们就被边缘化、被时代落下了。

祝铭明把这叫作「科技的黑暗面」。就像他最喜欢的电影《星球大战》里的 Hoth 一样,科技天然就有光明的一面和黑暗的一面,怎样才能找到一个平衡,在一定的场景下让光明面发挥出来而让黑暗面隐藏起来?或者,用他自己的话说是如何「把科技关起来」?

祝铭明认为 AI 是个可能的解决办法:「在 AI 之前,所有科技都要付出一个隐形的学习成本,一旦你不学习你就会被抛弃。AI 让机器真正开始理解你,而不是让你学习它,这就可能普惠每个人。」

在这样的思考之下,祝铭明找到了交互公司的真正使命:让每个人都能享受科技的进步,而不是被它抛弃。

每个人都能看到问题,但不是每个人都愿意去问背后的问题是什么。我愿意去问,一直问到自己答不出来为止。

从祝铭明写下第一行代码,已经过去了 30 年。现在,虽然公司的项目已经不需要他编程,他仍然坚持每天写写代码。

▲ 祝铭明的办公室。 图片来自:Rokid

这一方面是在保持对技术的感受力,让自己始终和前沿的技术在一起。另一方面则出于他对自己的要求:不断学习,保持好奇心。

这大概也是祝铭明能不断探索边界的原因之一。

事实上,他们所做的尝试都是在打破机器世界和物理世界之间的边界,为我们的感知重构一个更丰富、更超现实的世界。

在这个世界的各个角落,还有无数人夙夜匪懈、殚精竭虑,去探索自己的边界,突破那些既定规则。

正是在这种突破边界的努力之下,今天我们才能和机器说话,可以在海量的内容中瞬间获得自己最想要的东西,家中的电器可以认出我们的面孔,我们可以见识到远超人类棋手的人工智能棋手,拥有了比人类更准确地诊断病情的人工智能「放射科医生」,找到了快速试验新疫苗的人工智能算法,以及更多可以提升生活质量、拓展我们生命边界的事物。

也许有一天,这些人工智能还会帮助我们突破进化的藩篱,成为此刻的我们无法想象的新物种。谁敢说一定不会呢?

未来,遥远而未知。

正因为如此,它才令人着迷。

登录,参与讨论前请先登录

评论在审核通过后将对所有人可见

正在加载中