• 媒体品牌
    爱范儿
    关注明日产品的数字潮牌
    APPSO
    先进工具,先知先行,AIGC 的灵感指南
    董车会
    造车新时代,明日出行家
    玩物志
    探索城市新生活方式,做你的明日生活指南
  • 知晓云
  • 制糖工厂
    扫描小程序码,了解更多

为什么越像人的自然语言交互工具,越容易让人失望?

商业

2019-04-25 14:22

从有了Siri作为先例,拟人化已经成为了自然语言交互工具的必备能力。不论是服务于个人用户的AI语音助手,还是企业提供的智能客服,甚至是各种有语音功能的家用电器,都要做IP、造人设,几乎有了成精之势。

在大多数时候,我们认为自然语言交互的工具的拟人化可以降低用户的「恐怖谷效应」,让用户更喜欢与其交流。但最新的研究结果却表明,事实或许并非如此。

成为人类的千重套路

首先我们可以来看看,自然语言交互工具拟人化的「千重套路」。

第一步,给自己起一个人畜无害的名字。

我们常说,当你捡到一只小动物后,如果给它起了名字,那么它十有八九会成为你的宠物。AI也是一样,当自然语言交互工具拥有姓名,基本就注定了它会在成精的道路上越走越远。自然语言交互工具的名字通常是「小」字辈,既显得弱小无害又无关性别足够政治正确。

第二步,利用语音生成技术模仿人类语气。

拥有了名字之后,肯定就不能再用冷冰冰的电子音了,甚至以往语音生成技术管用的真人录音+规则匹配的模式也略显死板。这时便出现了以谷歌WaveNet为代表的神经网络语音生成,通过对真人说话方式多种特征的抓取,对语义、词性、语法包括上下文等等参数综合考虑,最终生成谷歌助手那样像真人一样说话会停顿、有思考的语气。

第三步,让对话内容更加人性化。

在自然语言交互的过程中,语音生成需要建立在文本内容之上。满足了「说话语气」的拟人化,同样也要让「说话内容」更加人性化。这时语义理解、多轮对话、自然语言生成等等技术的成熟度就变得非常重要。例如微软在微软小冰上应用的全双工自然语言交互,就能实现「边听边想」和「节奏控制」——通过整个对话过程对用户意图进行理解,减少用户的等待时间,并且能够主动引发新话题打破沉默,自行调节回答的内容和时机。这样的对话内容通过语音生成技术「展现」出来,就可以以假乱真,让人以为自己真的在和人类对话。

为什么越像人的自然语言交互工具,越容易让人失望?

 

最后一步,披上「人皮」。

除了技术之外,还要以一些外围模式让自然语言交互工具更加拟人化。比如为它们设计一个可爱的卡通形象,增加几条指令让它们学会一些撒娇卖萌的口头语,在交互界面上增加一些细节让人们意识不到他们在与机器对话等等。

有了这几步套路,基本就能塑造出一个「化作人形」的自然语言交互工具了。

越人性越可爱?自然语言交互工具的期望值管理

可我们从未想过的一个问题是,在实际应用时,自然语言交互工具真的越拟人化越好吗?最近宾州州立大学媒体效果研究实验室就进行了这样一项实验。

研究人员们告知志愿者,他们将在电商平台中选购数码相机,并需要和在线客服交谈咨询。这些客服背后都是智能自然语言交互系统,但研究人员对其进行人性化和响应程度上的区分。不同组的志愿者们分别会接触不同的在线客服系统,有在对话时直接告知对方自己是机器客服的,有的只展示出对话框内容,有的会通过真人头像和名字「伪装」成人类。

同时这些拟人程度不同的智能客服,又分别有着不同的响应程度。有些可以迅速精准的回答用户问题,有的却听不懂人话顾左右而言他。

为什么越像人的自然语言交互工具,越容易让人失望?

在交互过后调查实验者的满意程度时,结果却令人意外。

在一般的逻辑中,我们会认为智能客服在交互时响应程度越高,人们的满意度自然也会越高。可实际情况是,在同样的响应程度下,使用者的满意程度是与智能客服的人性化程度相关的。比如同样的交互内容,明确知道对方是机器客服的实验者就会给出80分的满意度评价,而那些伪装成人类的机器客服却只能获得60分的满意度评价。原因是当机器客服表现出较高的人性化特征时,用户对他们的期望程度也会随着上升,盼望着他们能和人类一样帮助自己解决问题,如果得不到想要的答案,则会放大失望感。

其实在我们自己应用自然语言交互时也有同样的感受,当语音助手、智能客服等等产品不能解决问题还要强行卖萌讲笑话时,我们的暴躁指数往往会呈直线上升。

说到底,自然语言交互的人性化与否是一个「用户期望值管理」问题,有时过度提升用户期望值反而会弄巧成拙。

做人容易,做工具难

但目前我们能看到一个重要的趋势是,自然语言交互人性和工具性的发展程度是不均衡的。

从技术发展的难易程度来看,让自然语言交互工具更加接近人类,远远要比让自然语言交互工具更加有效容易得多。

不管是谷歌的WaveNet还是微软的全双工自然语言交互,都足以让自然语言交互的发音模式、对话节奏等等细节无限接近人类。未来结合上计算机视觉层面,甚至机器人制作工艺层面的能力,我们可以打造出一个与人类无异的对话者。

为什么越像人的自然语言交互工具,越容易让人失望?

其实在今天,我们就能看到诸如AI主播或harmony推出的索菲亚等等在视觉上极致人性化的「AI演说者」。

可这些自然语言交互解决问题的能力却没有因此提高。具体表现为:对于人类语料的理解还存在一定隔阂,尤其是小语种、老年人、儿童等等相对冷门的语料库;对于不同领域词汇的认知还不够全面,很多时候涉及到一些垂直产业时,AI往往会进入知识盲区。

如此以来,帮助自然语言交互的「工具性」追赶「人性」或许将成为未来很长一段时间内的产业热潮。例如建立各个细分产业领域的知识图谱、累积词汇库,或收集不同人群不同方言语种的语料库用于AI训练。

在技术的不断追赶之下,人们对自然语言交互工具的期望值不断提高已经是一种必然,为了避免出现「短板效应」,我们或许应该投入更多精力去追求「人性」以外的东西。

本文来自微信公众号脑极体(ID:unity007 ),作者为我堂堂一个熊猫,爱范儿经授权发布。

登录,参与讨论前请先登录

评论在审核通过后将对所有人可见

正在加载中