下载客户端
下载客户端
关于我们 寻求报道 加入我们
公司 2011-5-18 07:00

重新索引互联网

李楠 李楠
-

重新索引互联网 Facebook 雇佣公关抹黑 Google 的过程已经水落石出。问题是: Google 那么多产品, Facebook 为何对 Social Circle 这么敏感?

Google :索引互联网

Google 号称自己的使命是“索引互联网”。

这件事的难点并非派出多少爬虫,而是对收集来的海量内容做排序:怎样让真正重要的网页,的排到 Google 搜索结果的前面来?

Google 的搜索结果排序有其他算法的辅助和人工调整,但是,他最基本的核心规则还是 Pagerank ,其理念并不复杂: “被许多优质网页引用的网页,仍然是优质网页。”

领域

Pagerank 是革命性的。而另一场革命似乎被我们忽视了: Tags 。

语义网络长期不靠谱的忽悠之后,简单的 Tags 可以终于可以给我们一些东西,让我们分辨这个网页是关于哪些方面的。从此“领域”也被引入网络。

具体些的“领域”的例子,就是 Quora 或者 Stack Overflow 的 Tags 。问题本身是属于“技术”领域,还是“设计”领域?是关于“ J2EE ”领域,还是“ Object-C ”领域?

某些没有 Tag 化的网页到底属于什么领域,还没有清晰的答案。但是已经有人在尝试解决这些问题。比如豆瓣九点,他是依靠算法来给 Blog 自动分类的。

专家

像 Quora , Stack Overflow 这种网站的颠覆性意义在于:他同时具有“人”和“领域”两种概念。

“领域”和“人”结合,就会产生“专家”:特别擅长某个“领域”的“人”。

和 Blog 时代那些说话无操守的“砖家”不同,实名网络加上 Quora 这种问答网站,让我们不需要而非头衔,证书或者学历,就可以用数据去检验一个人在某个领域的专业程度:回答某个领域的问题特别多,并且评价特别好的,很可能是个专家。

网络上的“专家”不仅仅是概念而已。有些网站已经走到了分辨专家的门槛上。 知乎虽然被称作 Quora 的拷贝版,但是他有个比 Quora 更酷的功能:邀请别人回答问题的时侯,系统会推荐可能合适的用户。

背后的算法不难猜测:用问题的“领域”( Tags )去匹配回答过类似问题的“人”。回答过类似问题并且获得赞成多的,很可能也适合回答这个问题。

Stack Overflow 其实也有类似的评价机制,叫做 Reputation (声望)。可惜并没有详细到领域(谁在标记着 Object-C 这个 Tag 的问题中拥有最高的声望?)。但是,如果 Stack Overflow 想得到这个数据,也是分分钟的事。

专家的投票

有同学可能回问:这和重新索引互联网有什么关系?我们还需要扯倒 Facebook 的另外一个功能:“ Like ”。

从上面的角度出发,这个神奇的按钮,其实就是一个“人”对“网页”的投票器。 如果这个人还用 Facebook ID 登录了 Quora ,那么这个按钮就是“某个领域的专家”(依靠 Quora 的数据分辨)对网页的投票器。(“ Like ”的祖宗: Twitter 的 RT 也是。)

Facebook 的新功能“ Send ”为了的非公开的分享?没错。但是更重要的是:“ Like ”再加上“ Send ”,可以让 Facebook 更加全面收集一个“人”对于一个“网页”的投票(以前通过 Email 做私密分享, Facebook 无法拿到这部分数据)。

由此可见,不够实名化的 Google +1 简直是东施效颦。

用户的聚合和识别

这里的问题是, Quora , Stack Overflow ,和 Twitter 不属于 Facebook 。

不过,别忘了 Facebook Connect 。如果用户通过 Facebook ID 登录 Quora ,那么判断谁是什么领域的专家就简单多了。而如果 Facebook ID 和 Twitter ID 可以聚合,那么他 Like 过什么, RT 过什么也可以简单相加。

这里你应该会想起 FriendFeed 。似乎所有的人都说: Facebook 是收购 FriendFeed 是为了团队。但是我一直无法相信,那么值钱的团队,会去找一件不那么重要的事情去做?

上面的内容应该可以说明:不同社交网络之间用户的聚合和识别,到底有多重要。

重新索引互联网

话说道这份上,已经图穷匕见了吧?

Pagerank 是让网页来投票,而 Facebook 掌握的数据可以让“人”,甚至“专家”来投票。

实名网络下,在某些领域,专家的投票可以给予网页很大的加权,让他在排名上更加靠前。(最新的例子是“美国前国防部长的参谋长”宣布本拉登已死的 Twitter 页面。)

肯定有朋友会问:最多“专家”投票的网页,恐怕也是 Pagerank 很高的吧?很可能如此。但是,长期观察 Blog 的传播让我注意到: Facebook Like 和 Twitter RT 的积累,远远比引用要来得迅速。

也就是说,在强调实时网络的今天,社交搜索得到的结果不但可能比 Pagerank 更好,而且,还可能更快。

互联网的地基

今天,只要一个网络应用想做关于地图的部分,他首先想到利用 Google Maps API 。当绝大多数网络服务都使用 Google Maps API 之后, Google Mpas 就不再是一个仅面向用户的网络应用了。他沉淀为网络的基础设施之一。

Maps 的重要性,从评论圈到 Google 自己都有清醒的认识。所以,Google 耗费大量的精力去扫描街景,尝试拍摄室内,甚至,不惜发射自己的卫星。(前两天的 Google IO 的内容更加证实了下面的思路:成功的“索引互联网”之后, Google 下面要做的是“索引现实世界”。)

而 Facebook 同样有机会成为互联网的另外一块地基:通过开放 API 给其他应用,可以让他掌握的真实的人际关系沉淀下来,成为网络的另外一块地基。(社交搜索,也只是这个基础上的一个应用而已。)

最后的话

Mark Zuckerberg 似乎一直自负承担着新搜索的使命,也一直在推进 Facebook 成为地基。

收购 FriendFeed ;不惜面子用 “Like” 去抄袭 Twitter 的 “ RT ”;用 Facebook Connect 把自己平台化等等,都在一块块的凑齐拼图。

而 Google 的 Social Circle 是同样的思路:聚合并且识别一个人在不同社交网络中的身份。之后,这些数据很可能被拿来优化 Google 搜索,或者用于其他网络服务。 Google +1 是个不知所云的产品,但是,如果他能结合 Social Circle 掌握的关系呢?

也许,这些才让 Facebook 不寒而栗的真正原因。

最后,友情提醒读者,以上内容并非事实,只是个人基于现有报道的猜测。也许,我对 Facebook 寄予了太多期望;也许,这样仍然低估了他们的野心。

毕竟,有 Facebook 高层提到过他们内部的一句口号:

“我们仅仅完成了 1% 的使命”。

by 李楠 (newkhonsou@gmail)

文章评论(-)
后参与讨论
正在加载中