真正的 “人工” 智能?——让人意外却有惊喜的 “土而奇机器人”

公司

2011-08-08 08:00

看到一个很让人惊喜的八卦故事。

一位叫赵行德的人在豆瓣上发了一个消息,谈到他在和联想产品经理聊天,了解到了一个手机应用背后牛逼的故事。这个故事显然把他击倒了。而我,也被击倒了。

先说说故事的引子乐助理 360,这是一个很省心的日程应用。

来举个例子吧。这个应用,有三种方式为用户设定手机日程,语音、文字和直接的电话。你对着手机说:后天 9 点飞北京,然后上传,几分钟之内,iPhone 日历就增加了一条在 9 点 “飞北京!” 的日程。文字呢?当然更好理解,你再也不需要在手机的日程管理软件中反复输入了,直接在这个应用输入你的计划,和短信一样发送,随后,你的日程也如你所愿就自动添加到系统日程了。

你会发现它相当方便。智能设备,特别是全触屏的手机,输入一直是很多使用者的心头痛。语音可以帮助用户方便地跨越这类门槛。不过,这类应用的成本还不仅仅在于单纯的输入,而是在于它需要你进行太多的选择。一个标准的场景是,拿出 iPhone,用拇指扫开屏幕,找到日程应用,然后填充一堆的表单区域。完成一个简单的日程,也需要点击很多很多次,耗费颇长时间。喜欢 GTD 的人,也许会乐于享受这种编辑归类过程,但是对于普通人来说,这种体验实在太差了。

且慢,还不光是你简单动动嘴皮的问题。你会发现它非常精确,它很听话,它很懂你,它支持所有的自然语义。这可不简单啊!

为何语音识别可不简单?它必须要解决各种场合下精确的识别处理问题。一方面,它需要对所识别语言规律和语句的高度理解,另外,它还需要解决各种噪音和干扰情况下(这是语音识别环境的常态)的识别问题。语音识别技术在商业和人机交互上一直以来缺乏足够的表现,正是由于无法精确的识别人类语音的表达。苹果去年 4 月耗巨资收购 Siri,看中的就是它就是可以很准确地识别人们的语音,针对人们提出的问题进行回答。人们认为,这个在语音识别领域浸淫已久的 Nuance 开发的语音技术,有可能让苹果开启下一扇人机交互的大门。

但是一个来自联想的应用,解决了这个问题?是联想在和科大迅飞搞的语音云合作项目?科大迅飞是联想投资的一个项目,上市前就获注资数千万元,而 2010 年底科大迅飞发布语音云系统时,柳传志也亲自出席了,这不得不让你有这样的联系联想。

反正我信了。马上就要和朋友感慨现在科技的日新月异了,CPU 已经可以代替人脑,云计算吧!脑海浮现出机器人统治世界的场景。

“人工” 智能

然后,赵行德告诉你 “让人崩溃” 的真相:它背后的故事是——它的 “高科技”,它的精确,它的 “人工智能”,就在于,它真的是人工的!——他们在远端用人听这些语音消息,然后输入进去 ……

我不知道这个消息是否属实,但是我在测试中发现,它确实有很强的 “人工” 迹象。一是我试用这个软件的时候,使用了粤语,然后这个应用就在远端 “死机” 了——日程记录并没有自动推送过来,听闻说四川话是 ok 的。二是上传了语音后,推送日程的处理时间差别蛮大,感觉不太象是计算机即时处理的。三是精确度确实很高,在不同噪音环境下和不同腔调下,效果都相当不错,很难让你相信这是机器识别的。

不过,这只算一个八卦消息,真实的情况仍然待验证,特别是语音识别系统和呼叫中心的结合也有商用的案例。简单粗暴的直接判断它是完全人工的不太合适。但是真正有趣的,却是这个八卦故事所折射出的 “创新” 智慧。

初看,这个故事包括后续的回复都让人忍俊不禁,但是,回头一想,也许这真是一个非常棒的创新,一个非常聪明的商业模式的创新。

为何商业创新需要高科技呢?商业创新的意义在于更小的成本创造更大的价值。据说这个服务主意还是联想呼叫中心的人想出来的。它利用到了现有的成熟模式,并在这个成熟的商业模式上派生出了另外一种创新价值。

这个服务的 “极其牛逼” 之处,在于它把一个复杂的问题彻底的简单化了——而简单化,确实牛逼的商业模式最为宝贵的特质。你不会看到真正可行的商业模式是复杂的,让人看不懂的。

它用非常简单的方法(人工听),解决了语音识别精确度问题,解决了输入问题(远端人工编辑推送),解决了随时随地服务的问题(24 小时的呼叫中心)——至少,让语音识别达到了非常好用的程度。它用超低廉的成本,完成了 “高科技” 很难做到的效果。它还是可扩展的。scalable 这个词在互联网模式中很热呢。

而高科技的云计算,本质和人脑简单集合处理并无不同,也许只是成本问题。科技本来是要降低成本的,如果在一个可以用人工比科技更好的降低成本的场合,为何不使用人工呢?

“土而奇机器人”

这种智能众包这也并非是联想呼叫中心的独创。

亚马逊就 2005 年推出一个叫土耳其机器人(Mechanical Turk)的服务,其理念,就是让人力众包来完成电脑力有不逮的细碎、精确的智能工作。这种众包让计算机调用人的智慧智能,把人和电脑的角色颠倒过来,让人成为任务的完成者,而电脑成为任务的分配者。起名叫土耳其机器人本身也映射了这个项目的性质:

这个名字源自于臭名远扬的能下象棋的 “自动装置”,它是匈牙利男爵沃尔夫冈·冯·肯佩伦(Wolfgang Von Kempelen)1770 年建造的。这个木制机器外形像一个坐在大机箱前的土耳其魔法师,它能自动而快速地下象棋,用复杂的齿轮和杠杆系统来移动棋子。在维也纳皇宫的首次表演中,它就迅速击败了对手 Cobenzl 伯爵,让在场的皇室成员看得十分高兴。从此关于这个惊人聪明的机器人迅速闻名于世,于是肯佩伦带着它在欧洲各地表演,击败了一系列著名的挑战者,包括拿破仑和本杰明·富兰克林。直到几年之后,这个骗局才被揭穿。原来机箱里藏了一名象棋大师,他用一个磁铁系统来跟踪对手的举动并移动自己的棋子,这个人实际是在模拟一种人工智能。(摘录自 比特云

这也是我们笑称它为 “土” 而 “奇” 机器人的来历。

可行性?

理论上的问题解决了,我们再来看看现实的商业问题。这得多大的人工成本?!别着急,看看赵行德的初步概算:

我测算了一下,平均每个活跃用户每天提交 0.5 条语音,每个人每分钟处理 3 条语音,每天工作 7 小时,可以服务 2500 个活跃用户,100 人的数据中心可以服务 25 万活跃用户。

如果把数据中心建在西部贫困地区,月薪 800 元估计就足够了,25 万工资成本才 8-10 万,100 人的数据中心,每人 2500 元的电脑,投资 25 万,数据中心投资 30 万元,办公家具设备 5 万元,偏远贫困地区租个办公室,月租不到 5000 元,100 人工资 8 万元,宽带月租 2 万元,10 个产品开发人员,每月 5 万元,5 个打杂行政人员,1 万元。

总投资 60 万元,每月运营成本 16.5 万,就能办出给至少 25 万活跃用户,100 万注册用户服务。

可行吗?

对的,它很土,很奇异,但是,它靠谱(it works),它可行。这个 “土而奇” 机器人很棒。

这不正是商业创新的意义吗?

目前,这个服务是免费的。而且所定义的日程服务类型所限,用户群也许并不算很大,每天下载量据说是 2000。但是它显然是一个可行的商业模式,同样的思路,你也许可以把它扩展到其他的移动互联网服务领域,有拾音功能的移动设备天然就是一个命令录入装置,天然就是一个可以收集多样服务需求进行集中处理的终端,智能手机已经为很多 “云计算” 的概念提供了坚实的应用基础。

你会为这样的管家类服务掏钱吗?至少,我会的。我觉得,与其把时间浪费在各种纠结上,还不如出钱让自己在零碎的时间发发呆。

这正是服务的意义呢。

Pics by Flickr ForbeChina

登录,参与讨论前请先登录

评论在审核通过后将对所有人可见

正在加载中

信奉科技和潮流的可能,相信激情和坚持的力量。

本篇来自栏目

解锁订阅模式,获得更多专属优质内容