探寻“找图”的最佳方式
搜索引擎已经集成了搜索图片功能,“找图”对比过去,不再是一个让人感到困难的活计:在搜索框里面,输入“桌子”,你会得到很多种类型的桌子,而且很快。
但是仅依据这一简单事实,不能认为搜索引擎有能力搜到自己想要的图片——计算机实际上不认识图片里面的内容。还记得 Google X 与斯坦福大学合作的一个实验吗?他们动用了 1000 台计算机进行“机器学习”,才顺利让计算机辨认出“猫咪”这种动物 。
实际上,搜索引擎依然主要根据你输入的文字来寻找图片的——不管图片是什么内容,它毕竟还有文件名,搜索引擎可以通过比较文件名的语义来找出用户想要的那张图片。
当然,现在搜索引擎搜索图片的方法变得更加复杂,比如会参照图片来源信息,对照图片版本等等。Google 的图片搜索也出现了利用算法来对图片进行“指纹”,然后对比每张图片编码的异同,从而找到相似的图片。但根据你输入的文字,然后找到与之相关的图片,仍然是搜索引擎寻找图片的基本方法:基于文字词义的理解。
由于存在一词多义的情况,因此搜索引擎搜索相关字眼,搜索结果会产生混淆。比如说“苹果”一词,它可以指代苹果公司,也可以指代那种我们饭后常吃的水果。但搜索引擎只会推荐它认为流行的事物,如果你想搜属于水果的“苹果”,可能需要增加一条“水果”的描述。计算机仍然无法做到真正意义上的理解“文字”,然后,给出真正人们想要的答案。
让计算机识别“真相”需要计算机科学开创新的图形搜索技术。根据纽约时报的报道,斯坦福计算机科学家李飞飞(Fei-Fei Li)希望计算机能模仿人类的视觉系统,因而建设世界上最大的视觉数据池 ImageNet,里面包含了 1400 万经过标签分类的材料,囊括五花八门的图像。
一开始,这些图像数据由人工分类,但现在机器通过学习已经可以从庞大的数据中分辨出其中相似的,但还没分类的照片。想让计算机真正认识照片,不可避免要模仿人脑认知的过程。然而,大脑如何认知的谜底,还未揭开。科学家们正前赴后继地进行研究,希望推动“脑与认知科学”向前发展。
李飞飞说,“互联网时代,我们突然间面对图片数据大爆发的情况。Facebook 目前存有 2000 亿张图片,而每分钟人们还上传总长度为 72 小时的视频到 YouTube。”这种情况也构成了对她图像识别研究的挑战。
于是,她借助亚马逊的“众包”平台 Mechanical Turk,她在上面发布任务,让网友为 ImageNet 整理图片。每年,ImageNet 可能会雇佣 2 万到 3 万“turkers”来给图片进行分类,平均每 5 分钟就整理 250 张图片。目前,ImageNet 内有 14197122 张图片,21841 个分类。
为了管理庞大的图库,李飞飞使用 WordNet(它是按照分类来管理英语词汇的)来分类,但这种分类方法也有缺陷——词库没囊括人们普遍感兴趣的事物,比如 iPhone、Lady gaga 等等。为了减轻分类时的痛苦,李飞飞的学生 Jia Deng 开发出一个图片分类软件,它会为图片简单的挑选一个可能性最高的分类;如果图片无法明确归类的情况下,软件会下一个分类,或是上一级分类中查找。
如果李飞飞主持的项目能够让计算机认清不同的图像,那么我们最近这几年所积累庞大的图片数据,就有了用武之地,而不仅仅是岁月的积淀了。