WHAT Lab 给微信开的那些 AI 脑洞
编者按:本文转载自转载自微信公众号 WeChat TechPower(wechattechpower),转载时已获得作者授权。
还记得 WHAT Lab 吗?对,就是一年前微信和香港科技大学成立的人工智能实验室。
一年过去了,WHAT Lab 在自然语言处理、数据挖掘、语音识别和机器人方向均取得阶段性的进展及成果,今天就拿出 WHAT Lab 的部分研究成果,给各位微信迷开开 AI 的脑洞。
让机器帮你读书
不知不觉间,我们的微信中已经关注了许多公众号,每天都有小红点提示更新,但想必很多人都忙着工作生活而来不及点开。
在信息爆炸的互联网时代,碎片化阅读让我们已经渐渐失去了主动阅读的能力。
用什么来拯救我们的阅读?如果有人主动跟我们说 Hi,我们大多数时间会给出回应。而在阅读中,谁来担当这个主动打招呼的人呢?
也许 AI 就可以。让机器阅读帮助人类阅读,正是 WHAT Lab 教授们正在努力的方向。
让机器读取各种文章并不难,但问题是,要怎么让机器读懂,并以人类能理解的语言表达出来?
这就涉及到了自然语言的处理。对此,WHAT Lab 的研究人员采用了 “强化迁移学习” 的模型,让机器表达更符合我们人类习惯。
我们所说的 “强化学习”,实际上是一种激励机制,当 AI 判断正确时,给予肯定的回馈,这就使得 AI 的这一行为得到了加强。而 “强化迁移学习”,简单来说,就是让 AI 在强化学习的基础上,学会举一反三。
然而,怎样才知道 AI 是否读懂了文章?
为了让 AI 能够真正理解上下文,研究人员采用了注意力机制进行文档和问题的语义表示,简而言之,就是让 AI 将注意力集中于某些关键词语和段落,从而学会找到问题的答案。
当 AI 阅读技能点满后,就能为我们做很多事了,比如告诉我们一篇文章、一本书到底讲了些什么,甚至可以回答关于书本的各种问题。
至于 AI “代读” 让我们丧失了体会原著语言魅力的问题,那就是另一个需要探讨的话题了。
关于 AI 概括文章内容的能力,目前一个较为实际的应用就是体育战报了。通过提取文字直播的主要内容,AI 能快速生成比赛战报,这显然比人工写要快多了。
想你所想
如果你正在减肥,你可能会对涉及 “健身”、“减脂”、“节食” 这类话题的文章感兴趣;如果你是个皇马球迷,吸引你注意力的除了皇马的文章,肯定还有 C 罗、佩佩甚至是其他西甲球队的新闻……
然而,无论你是查找资料还是浏览新闻,你都只能一个一个地输入关键词去查找,或者是通过相关推荐进入其他话题。
有没有可能让机器人自动为相关文章建立索引?这就是 “公众号数据层次话题分析” 技术要做的事。
首先我们要了解一个概念 “多维划分”,也就是说,同一个事物,按不同的属性可以归入不同的类别,比如微信,本质是一个 app,细分下来又属于“社交媒体” 或者“通讯工具”,但同时又具有支付功能,也可以归入“支付工具”。
那么,怎样让 AI 掌握多维划分的技能?WHAT Lab 的研究人员使用了一种叫 “隐树分析” 的算法——一种包含多个隐变量的树状的概率图模型。
所谓隐变量,就是无法直接观测到数据,例如小明数学 100 分,我们可以得出小明数学能力很强的结论,而这又能进一步推论出其分析能力出色,进而了解到他智力应该不错。这里的 “分析能力”、“智力” 就属于隐变量。
通过对各种隐变量的划分,赋予其权重,再辅以各种复杂的算法处理,我们就能从多个维度对话题进行划分。
层次话题的分析,除了我们前面所提到的建立文章索引外,在未来还可以有多种应用场景,例如根据用户的常用话题,进行用户画像,从而实现广告的精准投放;将用户的反馈、bug 提交归类,方便工程师们填坑;而通过层次话题的分析,我们甚至还能了解到一个热点的演变历程,进行舆情监测等。
数据也要美美哒
“不转不是中国人!” 这种老梗,究竟从何而来?一篇文章又是如何成为 10W+ 的爆款文?
要追根溯源,就必须用上传播可视化技术了。所谓 “传播可视化”,你可以理解为将数据以一种更美的形式呈现出来,毕竟作为视觉动物,我们总是更能接受图象所传达的信息。
比如这张亮瞎眼的图,就是微信消息传播路径可视化的结果:
当然,传播可视化显然不是将数据制作成图表这样简单,也不是图表做得好看就够了,其中涉及到了各种冗余数据的处理,也就是数据的取舍问题。
在舍弃部分数据之前,我们得到的图是这样的:
很美,然而并没有什么用……
在使用裁剪与收拢算法排除一些数据后,我们得到的图是这样的:
消息的传播趋势瞬间明朗:即有一手传播,也有二次传播、多向传播。既要颜值也要实用,这就是 “传播可视化” 作用。
作为普通用户,我们可能不会接触到这项技术,但微信团队会用这 “千里眼” 做热点追踪、谣言监控,给用户带来更好的阅读环境。
机器人也要有情商
为什么机器人要有情商?WHAT Lab 的教授告诉我们,有情商人的机器人,用户对其的接受程度更高、配合度更好。
讲真,打造一个有情商的 AI,其难度并不比开发一个高智商的 AI 低,需要为 AI 构建应答策略体系,在面对用户的问题时,它才能做出正确而又合理的回答。
在实验过程中,WHAT Lab 研究人员实际是打造了两种不同性格的 AI:主导型和委婉型,以测试用户对其的接受程度。
主导性 AI 性格更为强势,比如当你走神时,它会一直在你耳边唠叨:“快听我讲,快听我讲。”
委婉型 AI 显然性格就温柔多了,属于打不还手,骂不还口那种,你不想听,它会表示:“那行,你忙吧,我等你。”
看上去委婉型的机器人更合你意?然而对于拖延症患者来说,大概更愿意有一个主导性的机器人来监督自己吧……
对于机器人情商的要求,目前主要见于家政机器人领域,但我们相信在微信公众号上,我们也很快能遇到各种高情商机器人,可软萌可汉子、可攻可受、可逗逼可高冷,这样的机器人你是不是更愿意与之交(tiao)流(xi)?
讲到这里,各位是不是已经在憧憬着 AI 将以什么形式服务人类?我们也很期待人工智能时代的到来,到时微信一定会越来越聪明!
题图来源:The Gate Interactive