NaSent:让计算机理解人类的情感
计算机非常擅于处理数据,但其智力方面的进展却是缓慢的。近些年来,计算机领域兴起了“深度学习”。结合人工神经网络研究的成果,科学家们试图建立模拟人脑的神经网络,使计算机像人类一样思考,拥有学习能力。
如今,“深度学习”已经突破了学术圈的范畴,吸引了科技公司的资源投入,特别是以分析用户数据来盈利的公司,如 Facebook、Google 等。人工智能方面的突破,能使他们提供更加智能、人性化的服务。
在“深度学习”研究中,自然语言的分析是重要部分。人类语言交流是非常复杂的,不仅涉及到意思的理解,也涉及到感情的表达,对于计算机来说,把握前者已经很困难,而把握后者恐怕更是难上加难。NaSent 项目试图在情感分析上面走出突破。
这个项目由斯坦福大学的研究生 Richard Socher 发起,合作者包括人工智能研究员 Chris Manning,以及 Google 深度学习项目的工程师之一 Andrew Ng。
“在过去,情感分析依赖的模式多是忽略单词次序的,或者依赖于人类专家,”Socher 接受 Wired 网站采访的时候说,“那适用于非常简单的例子,但是永远无法上升到人类水平的理解,因为单词的意思随语境而改变,即使是专家也无法准确定义情感运作的所有细节。我们的深度学习模式解决了这两个问题。”
在构建 NaSent的过程中,Socher 和他的团队从烂番茄网站拿来了 1.2 万个句子,将其拆分为 21.4 万个短语,标记为非常消极、消极、中性、积极、非常积极等,然后将这些数据输入系统之中,并以此为基础对句子做分析。
研究员们说,NaSent 的准确率是 85%。这个数字还是不错的。当然,算法还有很大的改善余地。为了构建更加强健的系统,Socher 的团队还向系统输入了 Twitter 和 IMDB 上的数据。另外,他们还建立了一个实时演示的网站,所有人都可以参与其中。如果 NaSent 的判断错误,人们可以对其判断进行重新标记。在几周的时间里,已经有 1.4 万个用户参与过这个演示。
“人们很好心地教它新东西,告诉它正确与错误,”Socher 说,“给出实时演示的好处是,人们试图去破坏它。他们在把它推向极限,给予我们新的训练数据。这会帮助我们的算法模型。”
图片来自 doowansnews