Twitter 是思想的“真空”吗?
By Mike Melanson from ReadWriteWeb | otakucake译,转载请注明 ifanr.com 译文链接。
每当我们与那些不太关心技术的朋友们聊起 twitter,常常会遭到这样的抵触:我才不在乎那个谁谁谁今天中午吃了什么,或者今晚要看什么电影之类的无聊琐事。而此时我们总会尽力去“吹捧”这个风靡全球的微博服务的诸多其他优点。然而我们是不是错了?是否 twitter 上的人们几乎都在谈论自己或者自己的午餐呢?
嗯,SemanticHacker(Textwise 的 blog )分析了一些数据,看过之后我们也许要大跌眼镜了。
告诉你twitter上在说些什么?
这个 blog 利用 Twitter 的串流 API 从超过两百万的用户那里获取了近九百万条 tweets。在研究这些条目的具体含义之前,他们先抽样调查了不同语种的分布状况。
SemanticHacker 团队对语种的分布状况感到很惊讶,尤其是葡萄牙语的强劲势头。我们不禁还对那被标为“未知/未分类”的 10% 感到很疑惑,是因为这些 tweets 有恐怖的拼写错误以至于连数据库的语言识别系统都难以辨认?还是那 10% 的 twitter 人群使用了 Twitter 所特有的缩写形式导致它们无法归类为已知语言?(如果你需要一个好例子,找一个 12 岁的小屁孩互发短信,或者瞥一眼Sarah Palin 的 twitter 吧。)
我们在推些什么?
SemanticHacker 的成员随机抽取了 1000 条英语 tweets 作为样本,并将它们划分为八大类别。
根据他们的调查结果,twitter 上的确有许多喜欢谈论自己的“自恋狂”。样本里高达 57% 的 tweets 内容是关于某人在做什么又或者私人之间的闲聊。
剩下的 43% 则是关于其他话题,不过看起来似乎更无趣。如果我们去掉 8% 的“其他信息”与“未知信息”,8% 的“垃圾信息”与“广告”,那 Twitter 上就只剩下 27% 的信息有那么点确切涵义。
即便如此,事实也许也没那么糟糕。(因为)我们也相信,假如我们记录下一天里所说过的每一句话,有意义的部分甚至可能还没 27% 呐。
噢,我有没有跟你提过我今天中午吃的美味扁豆?