Google 搜索新技术,让图片自己说话

公司

2014-11-19 07:53

未来五年消费者使用语音、图像来表达需求的比例将超过 50%。

百度董事长兼 CEO 李彦宏如是说。单纯的文字搜索时代已经渐行渐远了,如今的搜索引擎,可以直接搜索语音和图片,这也催生了他们在电子商务中的应用,比如依图搜索商品

图片搜索引擎中,我们较为熟悉的有 Google,上传图片或输入 URL 地址,Google 就会按图索骥,给你图片来源、相似图片等搜索结果。这一切,都基于 Google 复杂的图像识别算法,对图像 “指纹扫描”,包括像素、颜色,亮度,从而进行图片的特征提取,继而找出相似结果。

而 Google 又要在这个领域更进一步了。据 《纽约时报》报道,Google 和斯坦福大学的科学家团队研发了新一代的图片识别技术:给图片做文字描述。识别的范围也不仅仅是图片,也包括视频画面。

目前的图片识别技术只识别出图像中的单个物体,而这项新技术识别的是整幅画面,并进行标记,用自然语言(英语)进行描述。比如,“草原上的大象”、“玩飞盘的年轻人” 这样的字句。图片被如此 “翻译” 过后,就能够更容易、更准确的分类,在被搜索时能提供更精确的结果。

用 “文字搜索” 协助 “图片搜索” 的好处显而易见:这项技术也可以帮助视障人士,或者应用在公共监控的安全系统上——监控摄像头所捕捉到的不仅是 “面部” 和单个个体,它可以识别整个画面,包括其中的运动、行为,自动报警。

也就是说,它为机器的认知和自我学习提供了新的技术基础。研究人员的灵感来自人类大脑的神经元网络,这个网络让大脑可以自我 “训练”,看到新事物时可以发现记忆中相似的事物。Google 要做的就是这样的一个大脑,可以认知、可以理解图片的内容。

认知是人类所具备的一种重要的能力,我们的大脑能够通过认知,也就是综合大量信息,来确定一个人的身份,一个物品的种类,这是人类智力的基础。计算机如果能做到这一点并不容易,Google X 曾动用了 1000 台电脑,一共 16000 颗处理器,创造一个多达 10 亿个连接的神经网络,在 1000 万张略缩图中,找到包含 “可爱小猫” 的图片。

当然,这项技术最主要的障碍在于识别的准确性,一些图像识别专家并不看好它,认为它只是复制了人类的视觉能力,反而在理解图像时更模棱两可。

尽管如此,让计算机识别 “真相” 需要计算机科学开创新的图形搜索技术。“我认为图片和视频中的像素数据是互联网的暗物质(Dark matter),我们希望照亮它。” 项目的领队、斯坦福大学人工智能实验室的李飞飞(Fei-Fei Li)说。

 

题图来自 deutschland

登录,参与讨论前请先登录

评论在审核通过后将对所有人可见

正在加载中