AI 新规则(五):Facebook 赌下一代接口是 「对话」
本文来自 36 氪编译团队神译局,译者 boxi,爱范儿经授权发布。
人工智能诞生至今已有 60 多年,美国的一些最大型的科技公司(Amazon、微软、Google、Facebook 等)才刚刚开始挖掘 AI 的潜能,并设法弄清楚人工智能将如何改变我们的未来。本文是《Fast Company》汇编的系列文章 「AI 的新规则」 的第五部分,介绍的是 Facebook 研发聊天机器人的努力。原文作者是 Mark Sullivan,标题为:Facebook is betting the next big interface is conversation
回到 2015 年的时候,聊天机器人很火。
其中炒作得最厉害的是 Facebook 的 M,该公司的初衷是把它做成一种灵活的通用目的的机器人,它可以执行许多不同的事情,比方说购买商品,安排送礼物上门,订座和制订旅行计划等。但是炒作远远大于实质。当 Facebook 在湾区对 2500 人进行 M 测试时,要求它执行的大部分任务都无法胜任。
在最初对 M 和其他聊天机器人的热情幻灭之后(微软 CEO Satya Nadella 曾宣称 「聊天机器人是新的 app」 ),随之而来的是一波失望潮。聊天机器人没那么能聊。那是因为他们受到的训练只能谈论一小部分事情,并执行有限的特定任务。他们没法跟人自然地进行沟通,无法根据对单词及其含义的一般理解来做出自己的回应。他们只能提供一般性的答复。
M 的 beta 测试还没搞完,Facebook 就缩减了原先制订的做聊天机器人的宏伟蓝图,尽管它的某些自然语言技术已融入到远没那么大胆的 Messenger 聊天机器人里面。这个聊天机器人可以执行单一简单的事情,比如点菜或发送问答信息。美国运通和 1-800-FLOWERS 等公司仍在用这种低配版的聊天机器人来回答客服问题,接受基本订单并提供帐户余额信息。如果你问它们超出其有限的理解范畴以外的任何事情的话,很多机器人就会把你转接到人类客服代表。
但是,Facebook 的 AI 研究小组已经摆脱了那种单一功能的聊天机器人。Facebook 的自然语言研究员 Antoine Bordes 告诉我:「我们过去三到四年一直在说,目标导向的对话不应该是我们需要探索的道路,因为这条路太难了,风险太大了。」 如果旅行聊天机器人预订了 「错误的飞机、错误的航班,那么无论对金钱还是旅行来说都是巨大错误。」
Bordes 解释说,Facebook 不再专注于特定任务的机制,而是退一步去解决一个更深层次的问题 —— 教虚拟座席像人一样交谈。如果聊天机器人可以更好地理解并与人类交流的话,他们最终就可能会成为更好的助手,可以帮助大家完成实际的任务,比如预订机票。
Facebook 一直在认真地投入这项工作,他们雇用了一些自然语言 AI 方面的高手。该公司喜欢指出的一点是,跟某些高科技巨头不同,它会在线发布 AI 研究成果供整个研究社区使用,这会帮助到正在开发下一代 AI 的其他人。但是,这项研究肯定也会推出 Facebook 自己的产品。
包括 Messenger 和 WhatsApp 在内,聊天应用是自然归宿,后者已被 Facebook 收购,还在研究怎么去赚钱的问题。随着 CEO 扎克伯格对公司提出了新愿景,并且更加强调私密对话,Messenger 和 WhatsApp 需要增加功能来保持对其他消息平台(如微信、Telegram 以及苹果的 iMessage)的领先地位。
开发出可以跟人随意聊天的算法已成为科技巨头的主要目标,Amazon、Gooogle 和微软都加入了 Facebook 的游戏,他们都把宝押在跟人对话的力量上 —— 不仅只是在基于文字的聊天应用里面聊,还要用到语音助手和其他体验上。由于最近所取得的研究进展,通往真正的会话式计算机的道路突然变得清晰起来,但是抢先撞线的奖赏仍值得争取。
换句话说,Facebook 对自然语言研究远不止是复活 M 或改进基于 Messenger 的聊天机器人那么简单。这关系到整个公司的未来。
进入神经网络
开发出可以跟人进行逼真对话的数字代理,可以说是所有自然语言问题里面最困难的一个。它需要一台机器来学习全是单词的字典,要了解它们的所有用法和细微差别,然后在跟无法预测的人进行实时对话时使用好那些东西。
自然语言 AI 圈只是在最近几年才开始朝着常识型机器人迈出了更大的步伐。其部分原因在于神经网络取得的巨大进步,神经网络是机器学习算法的一种,可以通过分析大量数据来识别模式。
在 AI 的大部分历史中,人类一直在都监督着软件的机器学习过程。在一种所谓的有监督学习的技术里,人类教师通过提供问题的正确答案来慢慢训练神经网络,然后再调整算法让机器实现相同的解决方案。
当你煞费苦心地对大量数据进行标记时,比方说表示里面包含有阿猫阿狗或其他物品的照片时,有监督学习可以很好地发挥作用。但是这种方法在聊天机器人的世界里通常不起作用。成千上万小时的人与人之间的对话记录很难大规模找到,而且一家公司想要收集起来代价会十分高昂。
由于用这些比较旧的办法去教聊天机器人如何进行对话很困难,所以研究人员一直在寻找有监督学习的替代方法,希望可以让神经网络自行学习数据,而无需人工干预。
减少训练数据需求的办法之一是教机器一点基本的常识。如果计算机对世界有一定的了解,比方说知道对象的相对大小,知道大家是怎么使用它们的,以及一些物理定律会怎么影响它们的话,那么它也许就可以将选择范围缩小到仅有的可能性范围之内。
人会自然地这样做。比方说,假设你在旁边就是悬崖峭壁的路上开车,突然看到前方的道路上有一块大石头。你要避免撞上石头。但是,在考虑选择的时候,你永远都不会做出把方向盘往悬崖那一侧打过去的决定。因为你知道,由于重力的原因,汽车会猛然摔落悬崖,车毁人亡。
Facebook 副总裁兼首席 AI 科学家 Yann LeCun 说:「我们的学习绝大部分都是在…… 观察世界。」 Yann LeCun 是人工智能领域的传奇,自 20 世纪 80 年代以来就一直在应对 AI 的最大挑战。「我们从父母和其他人那里学到很多东西,但通过跟世界的互动,通过尝试,失败和纠正错误,我们也学到了很多东西。」
▲Facebook 首席 AI 科学家 Yann LeCun
用这种技术训练的 AI(称为无监督学习)也是这种学习方式。比方说,就像孩子通过五种感官了解世界一样,一辆自动驾驶汽车通过部署的许多传感器和摄像头来收集有关世界的数据。通过这种方法,科学家为机器提供了大量训练数据来消化。他们不要求机器生成正确答案或者骗它达到某个目标。取而代之的是,他们只要求它处理和学习数据,寻找模式并映射不同数据点之间的关系。
在许多情况下,很难获得这些必要的数据。但是 AI 有一个领域是神经网络无需传感器即可学习到很多关于世界的知识的:那就是自然语言处理。研究人员可以利用大量现有文本来帮助算法理解人类世界,这是理解语言的必要部分。
比方说假设我们提供以下两句话给神经网络:
「奖杯放不进箱子因为它太大了。」
「奖杯放不进箱子因为它太小了。」
要想知道 「它」 在每个句子中指的是什么,模型需要了解一点物体的知识以及它们之间的关系。LeCun 表示:「受训练的文字里面已经有了足够的结构,通过这个结构你可以知道,当一个东西要放进另一个东西时,如果被放进去的太大是放不进去的。」
事实证明,这种技术是新一代更具对话性和实用性的 Facebook 聊天机器人的秘密。
认识一下 BERT 和 RoBERTa
自然语言系统无监督训练方面目前取得的进展是 Google 在 2018 年开启的。他们的研究人员创建了一个深度学习模型,这个东西叫做称为 BERT(Bidirectional Encoder Representations from Transformers,来自 Transformer 的双向编码器表征),然后给它提供了来自 11038 本书的未注释文本以及摘自英语维基百科的 25 亿个单词条目。研究人员随机遮盖了文本中的某些单词,然后向模型发起挑战,看它们怎么填充回去。
神经网络分析了整个训练文本之后,它发现了经常出现在同一上下文中的单词和句子模式,从而帮助它理解了单词之间的基本关系。而且由于单词是现实世界中对象或概念的表示,因此该模型不仅学习到单词之间的语言关系,而且还了解到了更多的内容:它开始理解对象之间的关系了。
BERT 并不是第一个用无监督方法来训练计算机理解人类语言的模型。但这是第一个在上下文环境下学习单词含义的模型。
微软合伙人,研究院深度学习部门研究经理高剑锋说:「要我说这算是自然语言处理两、三大重大突破之一。大家已经把这个模型当作开发所有其他自然语言处理模型的新基准。」 随着其他研究人员在 Google 的模型基础上构建自己的模型,到目前为止,那篇 BERT 的研究论文已有 1000 多项学术引用。
LeCun 和他的团队也是其中之一。他们构建了自己的模型,然后进行了一些优化调整,大大扩展了训练数据量,并增加了允许的训练时间。在神经网络运行了数十亿次计算之后,Facebook 的语言模型 RoBERTa 的性能已经大大优于 Google 的模型。与 BERT 的准确率是 80.5%,它的达到了 88.5%。
BERT 和 RoBERTa 代表了一种全新的教计算机交谈的办法。LeCun 说:「在这样做的过程中,系统必须表示它看到的单词的意义,句子的结构,以及上下文。其结果是,它有点了解语言是什么了,这很奇怪,因为它对世界的物理现实其实一无所知。它没有视力,没有听力,它什么都。」 它知道的就只有语言 —— 字母,单词和句子。
慢慢接近真实对话
LeCun 表示,用 BERT 或 RoBERTa 训练的自然语言模型仍然不具备太多的常识 —— 那点常识只够它产生基于广泛常识的聊天响应。这其实只能算是训练算法像人一样说话的开始。
Facebook 的自然语言研究人员还在尝试着在 RoBERTa 的基础上开发更多的会话功能。他们从研究人与聊天机器人的对话开始,好了解对话是什么时候以及怎么中断或变得无聊的。他们的发现推动了一项研究的发展,那项研究提出了培训机器人避免最常见的对话失败的方法。
比方说,聊天机器人经常会自相矛盾,因为它们会不记得自己在对话中已经说过的话。聊天机器人可能上一分钟还说自己爱死了《霹雳游侠》的重新上映,然后下一分钟就说自己不喜欢看电视。建立自己原创响应(而不是从训练数据中获取示例)的聊天机器人倾向于用模糊的方式回答问题,以免出错。它们往往似乎不能分辨情感,这降低了它们的互动性。
聊天机器人还必须能够利用知识,成为有趣的对话者。可以利用各种信息的聊天机器人跟人能聊下去的可能性要高得多。但是,目前的聊天机器人都是用与机器人要完成的任务相对应的单一领域知识来训练的,如果人开始对偏离机器人领域知识以外的主题发表评论时,就会成为问题。比方说,问送披萨的机器人有关披萨以外的任何话题,双方很快就没法聊下去了。
怎么办?Facebook 的研究人员一直在训练自然语言模型从从许多知识领域去提取数据,然后将这些信息用自然方式注入到对话的过程当中。未来的研究将集中在教机器人什么时候以及怎么把对话从一般话题转到特定任务上来。
开发聊天机器人的最大挑战之一是让聊天机器人在部署好之后仍能够继续学习。单词的含义会随着时间而改变,新名词和俚语在文化上变得重要。同时,聊天机器人也不能太容易受到影响 —— 微软的聊天机器人 Tay 就是因为在网上跟人对话中太快学到了太多的东西,在 24 小时之内就变成了一个会骂人的种族主义者。Facebook 正在教其实验性的聊天机器人,从对话进展顺利的时候开始学习,并且分析人类聊天伙伴的语言,从中发现机器人是不是说了什么愚蠢或无聊的话。
预测 Facebook 在实验室中取得的进展什么时候可能会带来哪怕表面上像人一样聊天的聊天机器人是危险的。但是,我们自己可以判断结果的时间可能并不会那么久。Facebook 研究人员 Jason Weston 告诉我:「我们相信我们已经非常接近拥有一个这样的机器人,我们将能够跟它聊天,并且会看到它的价值。」