搜索的进化——Google 推出知识图谱
Google 昨天通过其官方博客正式发布搜索页面的新功能——知识图谱(Knowledge Graph)。这可能是 Google 搜索上线以来最大的一次改革。
改变传统模式
长期以来,Google 搜索的进化主要着眼于改善排名,为用户提供最有价值的网页。但搜索的形式并没有太大变化,输入关键词-页面显示十个结果,结果由标题、链接以及关键词相关的简短内文片段组成。虽然现在搜索页面也会插入图片等结果,不过搜索结果大体上依然通过文字简介的形式提供。
今天推出的知识图谱则不同,它在搜索页面右栏集成了更直接的答案。比如搜索“taj mahal”(泰姬陵)会呈现泰姬陵在地图上的位置、来自维基百科的文字简介、建筑相关信息表(高度、开放时间、设计师等)。页面下方还有与 taj mahal 同名的人物、赌场结果。
新搜索页面,taj mahal 搜索结果(图片点击放大)
就目前得到的信息来看,最迟去年 11 月 Google 就已经开始小范围公开测试知识图谱,不过这功能当时只显示为“来源”。
从用户角度来看,知识图谱的好处显而易见。你能够直接获得搜索内容的基本信息汇总,而不用根据文字片段和网站名称判断究竟哪个链接最有价值,然后再打开新页面人工过滤页面内的有价值信息。
背后的支持
知识图谱的背后是庞大的信息库。Google 高级副总裁 Amit Singhal 在接受 SearchEngineLand 采访时说知识图谱的信息搜集工作始于 2010 年收购 Metaweb。
人们对同一种东西有很多种描述方法,Metaweb 专注于将不同文字表述与同一个实体连接起来,并探索这些实体的属性(例如明星的年龄)以及彼此之间的联系,最终提供一种新的搜索形式。虽然不能完全替代关键词搜索,但 Metaweb 的索引、搜索方法在处理诸如“身高小于 160cm 的女星”、“马丁大叔害死的所有配角”之类的搜索时更高效。
实体间联系,Metaweb
Metaweb 的主要信息来源是 Freebase。但 Google 知识图谱的信息来源要宽广得多,不仅包括 Freebase、维基百科、CIA World Factbook 等公共资源,也从其它网页搜集整理了大量信息。官方提供的数据是目前已经搜集 35 亿条信息(facts),内容涵盖:
- 演员、导演、电影
- 艺术作品、博物馆
- 城市、国家
- 岛屿、湖泊、灯塔
- 音乐专辑、音乐团体
- 行星、航天器
- 过山车、摩天大楼
- 运动队
移动与盈利前景
知识图谱的搜索形式并非 Google 首创,2009 年启动的 Wolfram Alpha 计划就已经开始提供更精确的信息。苹果 Siri 智能语音助手的搜索功能就由 Wolfram Alpha 提供。
相对笔记本和桌面电脑来说,屏幕尺寸和网络环境受限的移动设备用户更需要直接的信息汇总。Google 知识图谱也第一时间提供智能手机和平板支持。目前已经覆盖 2.2 以上版本的 Android 设备和 4.0 以上版本的 iPhone、iPad。
Google 和 Siri 的做法不同,它并没有完全用知识图谱替代传统移动搜索,而是像桌面版一样让它和传统搜索并存。用户可以点击或滑动搜索页中的知识图谱部分调出更多信息。
知识图谱直接提供答案意味着 Google 有可能通过中间人身份介入销售流程。比如用户搜索电影的名字可能是想买票或者购买电影 DVD。Google 可以将用户导向特定网站获取提成——甚至直接转向自己的 Play 商店。
对于移动用户来说这样的购买流程尤其方便,也是在移动平台获得营收的可行手段。不过知识图谱目前没有这方面的功能。Singal 回答说 Google 未来会探索这些可能,但知识图谱仍处于起步阶段,他们最关心的是产品表现。
对第三方网站的冲击
“这是构筑下一代搜索至关重要的第一步。搜索将步入网络集智,对世界的理解也会更像人类。”
知识图谱发布博文中的这句话很好地概括了知识图谱对未来搜索发展的意义。Google 是搜索老大,全球市场占有率超过 87%。知识图谱的发布意味着提供更直接的信息已经是未来搜索发展的方向。
但搜索引擎直接提供最终信息必然引来第三方网站的担忧,Singhal 回应说 Google 在测试中发现知识图谱所提供的绝大多数信息不会截留第三方流量——维基百科等公共资源除外,他们应该也不介意。
Google 认为知识图谱提供的简练归纳只会激发用户兴趣,鼓励用户搜索更多内容。不过知识图谱覆盖范围一定会越来越广、Google 对信息的汇总也一定会进化,第三方网站是否会收到影响只能等待实践考验。总之机械罗列信息的人工网站迟早会被技术进步所淘汰,很难说这不是一件好事。
Google 知识图谱本周就将对美国地区开放,初期将只支持英语。不过根据以往 Google 推出搜索服务的速度来看,知识图谱应该很快就会覆盖更多语言和地区。