为了紧抓大数据命脉，百度不远万里到硅谷设立研究院

当美国的“创客”纷纷来到中国深圳，呼吸着华强北浑浊空气的同时，中国最大的搜索引擎百度前往美国硅谷设立研究院。

根据连线的报道，百度的研究院坐落于苹果总部的所在地 Cupertino，名为 Institute of Deep Learning，简称为 IDL。

实际上，今年 1 月 19 日，李彦宏在百度年会上提出了将于今年专注于 Deep Learning 领域的研究院，他希望这个研究院能够达到贝尔实验室、Xerox PARC 的高度。百度的动作很快，从春节放假回来起算，成立研究院只不过用了两个月的时间。

如果我们要讨论 IDL 成立的意义，就必须讨论它的研究课题，以及它与百度之间的关系。所以，必须问这两个问题：什么是“Deep Learning”呢？它能帮助百度什么呢？

Deep Learning 是“机器学习”的新领域，最近一两年十分流行，它是 20 年前红火的研究领域“神经网络”的后续发展，特点在于能够比较好地处理图像、语音这种特征不明显的数据——按照邓侃所说，”借助于Deep Learning 算法，人类终于找到了如何处理 ‘抽象概念’这个亘古难题的方法。”

比如，让电脑认识什么是猫。

去年 6 月，Google X 实验室的一个项目，通过“机器学习”的方法，在 1000 台电脑的帮助下，创造了一个多达 10 亿个连接的“神经网络”，就为了让电脑知道，什么是“猫”。而最终在大量数据的支持下，电脑终于认识到“猫”是一种怎样的动物，并成功地在 1000 万张略缩图中，找到“猫”的照片，识别率为 81.7%。而领导这个项目的人，正是在 Google 内部推动 Deep Learning 算法应用的 Andrew Y. Ng。

但不止 Google 紧盯着大数据，苹果、IBM 等科技公司同样强烈渴望早点在这个领域树立自己丰碑。百度也是搜索引擎，在中文搜索世界里，积累了大量相关的数据。它也要紧握大数据的果实——让电脑认识抽象概念，能够提高机器的智能，让人们在与机器交互的时候，变得更加自然。从整体来看，在“Deep Learning”上的进步，能够帮助搜索引擎提高搜索结果的精度，语音识别、图像识别的精度，为以后更自然的交互做好准备。

两个星期前，百度上线了“头像搜索”，未尝不能视为“Deep Learning ”的实际应用，不过也可以看出，它的搜索结果并不精确。我在百度上搜索百度多媒体部副总监余凯的头像，得到的全部都是别人的头像。当然，按照“机器学习”的特性，当数据量越来越多，那么得到的结果也将越精确，百度头像搜索上线不过两个星期，数据量可能仍然不够大。

我不知道余凯未来会不会保留“多媒体部副总监”的头衔，因为很显然，这一次 IDL 的创立离不开他的帮助。为何这么说呢？因为在去年 6 月，余凯参加了纽约大学的 2012 电脑视觉及图形辨识会议，并作出演讲，内容与“Deep Learning 在视觉上的应用”相关，幻灯片可以在这里下载。此外，百度的头像搜索和语音识别，是他带领团队所开发的产品。

余凯对连线说，“我们心怀伟大的梦想，希望通过‘Deep Learning’，能够模拟人类大脑的能力、能量、理解力。”现在，在硅谷，他已经找到第一名研究人员。

题图来自 wired