探寻“找图”的最佳方式

搜索引擎已经集成了搜索图片功能，“找图”对比过去，不再是一个让人感到困难的活计：在搜索框里面，输入“桌子”，你会得到很多种类型的桌子，而且很快。

但是仅依据这一简单事实，不能认为搜索引擎有能力搜到自己想要的图片——计算机实际上不认识图片里面的内容。还记得 Google X 与斯坦福大学合作的一个实验吗？他们动用了 1000 台计算机进行“机器学习”，才顺利让计算机辨认出“猫咪”这种动物。

实际上，搜索引擎依然主要根据你输入的文字来寻找图片的——不管图片是什么内容，它毕竟还有文件名，搜索引擎可以通过比较文件名的语义来找出用户想要的那张图片。

当然，现在搜索引擎搜索图片的方法变得更加复杂，比如会参照图片来源信息，对照图片版本等等。Google 的图片搜索也出现了利用算法来对图片进行“指纹”，然后对比每张图片编码的异同，从而找到相似的图片。但根据你输入的文字，然后找到与之相关的图片，仍然是搜索引擎寻找图片的基本方法：基于文字词义的理解。

由于存在一词多义的情况，因此搜索引擎搜索相关字眼，搜索结果会产生混淆。比如说“苹果”一词，它可以指代苹果公司，也可以指代那种我们饭后常吃的水果。但搜索引擎只会推荐它认为流行的事物，如果你想搜属于水果的“苹果”，可能需要增加一条“水果”的描述。计算机仍然无法做到真正意义上的理解“文字”，然后，给出真正人们想要的答案。

让计算机识别“真相”需要计算机科学开创新的图形搜索技术。根据纽约时报的报道，斯坦福计算机科学家李飞飞（Fei-Fei Li）希望计算机能模仿人类的视觉系统，因而建设世界上最大的视觉数据池 ImageNet，里面包含了 1400 万经过标签分类的材料，囊括五花八门的图像。

一开始，这些图像数据由人工分类，但现在机器通过学习已经可以从庞大的数据中分辨出其中相似的，但还没分类的照片。想让计算机真正认识照片，不可避免要模仿人脑认知的过程。然而，大脑如何认知的谜底，还未揭开。科学家们正前赴后继地进行研究，希望推动“脑与认知科学”向前发展。

李飞飞说，“互联网时代，我们突然间面对图片数据大爆发的情况。Facebook 目前存有 2000 亿张图片，而每分钟人们还上传总长度为 72 小时的视频到 YouTube。”这种情况也构成了对她图像识别研究的挑战。

于是，她借助亚马逊的“众包”平台 Mechanical Turk，她在上面发布任务，让网友为 ImageNet 整理图片。每年，ImageNet 可能会雇佣 2 万到 3 万“turkers”来给图片进行分类，平均每 5 分钟就整理 250 张图片。目前，ImageNet 内有 14197122 张图片，21841 个分类。

为了管理庞大的图库，李飞飞使用 WordNet（它是按照分类来管理英语词汇的）来分类，但这种分类方法也有缺陷——词库没囊括人们普遍感兴趣的事物，比如 iPhone、Lady gaga 等等。为了减轻分类时的痛苦，李飞飞的学生 Jia Deng 开发出一个图片分类软件，它会为图片简单的挑选一个可能性最高的分类；如果图片无法明确归类的情况下，软件会下一个分类，或是上一级分类中查找。

如果李飞飞主持的项目能够让计算机认清不同的图像，那么我们最近这几年所积累庞大的图片数据，就有了用武之地，而不仅仅是岁月的积淀了。