维基百科的背后,别忘了它们

公司

2012-07-26 17:40

维基百科是个好东西。它汲取众人的智慧和力量,对万千世界的知识进行整理和传播。它完全免费,只要有网络,人们可以随时随地访问维基百科获取自己想要的资料。如今它已经是许多人在网上查阅资料的必备工具,其存在甚至让有 244 年历史的印刷版《大英百科全书》彻底汗颜

不过正由于维基百科是一本人人都能参与编写的网络百科全书,试想若有不怀好意的人想要给它随便涂上几笔,这种情况该如何处理?

别担心,维基百科的背后还有一批不知辛劳的 “虚拟机器人”。

这些虚拟机器人叫 ClueBot-NG,你可以亲切地称它们 “Bot”(Robot 的简称)。根据维基百科的定义,ClueBot-NG 是用于自动、快速监测及阻止文化破坏行为的电脑程序。

要是没有它们,维基百科将会一塌糊涂。

维基百科的一位管理者这样说道。为什么会一塌糊涂?

BBC 报道,在这个月,维基百科英文版的文章已经超过了 400 万篇,总共有约 25 亿字,印刷成纸将达数百万页,比全套大英百科全书还要多 50 倍。整个维基百科的编辑者有成千上万,其中约 7 万 7 人每个月会进行 5 次以上的编辑。

如此海量的资料,如此庞大的编写团队,要依靠人力来监视不当内容简直是 “不可能完成的任务”。

因此 ClueBot-NG 的存在显得至关重要。除了杜绝文化破坏行为(vandalism)、删除不当内容,它们还负责整理、分类、排版等工作。可以说,维基百科如今的井井有条离不开它们的辛勤劳动。

除了上述工作之外,BBC 的报道中还提到 ClueBot-NG 还负责简单的编写工作。这里并不是指 Bot 会自己编写文章,它所做的不过是到其他网站上抓取资料,生成新的维基条目,之后的工作则由其他真正的编写者来接手。不过维基百科内部对这种做法则是褒贬不一,有的人认为这种自动抓取生成的文章几乎没有价值,而有的人认为有新内容就是好的。

那么 ClueBot-NG 的背后又是谁在控制?Christopher Breneman 和 Cobi Carter 是最主要的两个领队,前者负责编写和维护监测引擎核心以及核心配置,后者则负责接口代码的编写。

ClueBot-NG 的工作还离不开资料库(dataset)的支持,完善的资料库可以帮助扩大监测范围,提高准确度。目前该团队也还在号召志愿者帮助完善数据库,感兴趣的同学可以看这里

以一个玩笑来结尾吧:

我们应该选一天让所有 bot 都罢工,让每个人都知道它们到底做了多少工作:)

 

题图来自 TWMM

登录,参与讨论前请先登录

评论在审核通过后将对所有人可见

正在加载中