为了紧抓大数据命脉,百度不远万里到硅谷设立研究院

公司

2013-04-12 23:58

当美国的 “创客” 纷纷来到中国深圳,呼吸着华强北浑浊空气的同时,中国最大的搜索引擎百度前往美国硅谷设立研究院。

根据连线的报道,百度的研究院坐落于苹果总部的所在地 Cupertino,名为 Institute of Deep Learning,简称为 IDL。

实际上,今年 1 月 19 日,李彦宏在百度年会上提出了将于今年专注于 Deep Learning 领域的研究院,他希望这个研究院能够达到贝尔实验室、Xerox PARC 的高度。百度的动作很快,从春节放假回来起算,成立研究院只不过用了两个月的时间。

如果我们要讨论 IDL 成立的意义,就必须讨论它的研究课题,以及它与百度之间的关系。所以,必须问这两个问题:什么是 “Deep Learning” 呢?它能帮助百度什么呢?

Deep Learning 是 “机器学习” 的新领域,最近一两年十分流行,它是 20 年前红火的研究领域 “神经网络” 的后续发展,特点在于能够比较好地处理图像、语音这种特征不明显的数据——按照邓侃所说,” 借助于 Deep Learning 算法,人类终于找到了如何处理 ‘抽象概念’ 这个亘古难题的方法。”

比如,让电脑认识什么是猫。

去年 6 月,Google X 实验室的一个项目,通过 “机器学习” 的方法,在 1000 台电脑的帮助下,创造了一个多达 10 亿个连接的 “神经网络”,就为了让电脑知道,什么是 “猫”。而最终在大量数据的支持下,电脑终于认识到 “猫” 是一种怎样的动物,并成功地在 1000 万张略缩图中,找到 “猫” 的照片,识别率为 81.7%。而领导这个项目的人,正是在 Google 内部推动 Deep Learning 算法应用的 Andrew Y. Ng。

但不止 Google 紧盯着大数据,苹果、IBM 等科技公司同样强烈渴望早点在这个领域树立自己丰碑。百度也是搜索引擎,在中文搜索世界里,积累了大量相关的数据。它也要紧握大数据的果实——让电脑认识抽象概念,能够提高机器的智能,让人们在与机器交互的时候,变得更加自然。从整体来看,在 “Deep Learning” 上的进步,能够帮助搜索引擎提高搜索结果的精度,语音识别、图像识别的精度,为以后更自然的交互做好准备。

两个星期前,百度上线了 “头像搜索”,未尝不能视为 “Deep Learning ” 的实际应用,不过也可以看出,它的搜索结果并不精确。我在百度上搜索百度多媒体部副总监余凯的头像,得到的全部都是别人的头像。当然,按照 “机器学习” 的特性,当数据量越来越多,那么得到的结果也将越精确,百度头像搜索上线不过两个星期,数据量可能仍然不够大。

我不知道余凯未来会不会保留 “多媒体部副总监” 的头衔,因为很显然,这一次 IDL 的创立离不开他的帮助。为何这么说呢?因为在去年 6 月,余凯参加了纽约大学的 2012 电脑视觉及图形辨识会议,并作出演讲,内容与 “Deep Learning 在视觉上的应用” 相关,幻灯片可以在这里下载。此外,百度的头像搜索和语音识别,是他带领团队所开发的产品。

余凯对连线说,“我们心怀伟大的梦想,希望通过 ‘Deep Learning’,能够模拟人类大脑的能力、能量、理解力。” 现在,在硅谷,他已经找到第一名研究人员。

 

题图来自 wired

登录,参与讨论前请先登录

评论在审核通过后将对所有人可见

正在加载中