人工智能秘史:人机混合的 「亚马逊 Mechanical Turk」 项目
本文来自 36 氪,编译为 boxi,爱范儿经授权发布。
第六部分:土耳其机器人修订版
千禧之交,Amazon 开始将服务扩展到卖书以外的领域。随着网站的产品款式不断丰富,公司必须想出新的办法对其进行分类组织。其中的一部分任务是将网站上出现的成千上万重复产品撤除掉。
公司的工程师试图写软件自动消除重复出现的产品。识别并删除对象看似简单的任务,这应该在机器的能力范围内。但工程师很快就放弃了,称其中的数据处理挑战是 「难以克服的」。这项任务要求具备识别图片和文字之间存在细微差别和相似性,其实需要的是人的智能。
这个难题留给了 Amazon。删除网站上的重复产品对人来说是一项琐碎的工作,但重复产品的绝对规模需要大量劳动力。一项任务要协调如此众多的工人就不是一项琐碎的工作量。
Amazon 一位叫做 Venky Harinarayan 的经理想出了一个解决方案。他的专利描述了一个 「人机混合的计算部署」,也就是将任务分解成小单位,或者 「子任务」,然后分配给一个工人网络。
Amazon 一位经理的专利描述了一个 「人机混合的计算部署」
删除重复项的情况下,中心的计算机可以将 Amazon 的网站分割成一块块 —— 比方说,100 个开罐器的产品页,然后通过互联网将这部分网页发给处理的工人。工人然后识别这些网页当中的重复项,再把处理过的返回去。
这种分配系统提供了一个关键优势:工人不需要集中在一个地方,而是随时随地在自己的个人计算机上完成子任务。基本上,Harinaryran 开发的是一个将地技能但又难以自动化的工作分配给一个可并行工作的工人网络的有效手段。
在 Amazon 的内部运作证明,这个办法非常有效,以至于贝索斯决定这个系统可以作为服务卖给其他公司。贝索斯将 Harinaryan 的技术变成了一个劳动力市场。企业在这个市场内可以将人容易做(但很难自动化)的任务跟自由职业工人组成的网络渐进性匹配,给很少一点钱就可以让他们完成任务。
Amazon Mechanical Turk(或者简称 Turk)就是这么诞生的。这项服务于 2005 年推出,然后用户群迅速扩大。全球的企业和研究人员开始上传成千上万所谓的 「人类智能任务」 到平台上,比如音频转录或者给图像加标题等。然后这些任务由一支国际化的匿名工人群体以很少的费用(有一位愤愤不平的工人报告称平均每项任务的费用只有 20 美分)忠实地执行。
这项新服务的名字是向 18 实际那台下棋机器(参见 AI 秘史一),贩子 Wolfgang von Kempelen 发明的土耳其机器人的致敬。就像那个骗人的自动化(机器内部藏有一个人类棋手)一样,mTurk 平台也是为了让人类工人不可见。平台的工人不提供名字,只有数字,而且请求者与工人之间的沟通完全是去个性化的。贝索斯本人把这些去个性化的工人称为是 「人工的人工智能」。
2017 年的一篇论文发现,在平台上的工人时薪中位数大概是 2 美元,只有 4% 能拿到 7.25 美元以上。
今天,mTurk 是一个繁荣的市场,上面有来自全球的数十万工人。尽管该在线平台为本来没机会得到工作的人提供了一个收入来源,但其劳动条件是很有问题的。一些人认为,通过将工人隐藏起来并且原子化,Amazon 可以更容易地盘剥他们。2017 年的一篇论文发现,在平台上的工人时薪中位数大概是 2 美元,只有 4% 能拿到 7.25 美元以上。
有趣的是,mTurk 也成为了机器学习应用开发的关键。在机器学习中,AI 程序被赋予了一个很庞大的数据集,然后再自行寻找模式并得出结论。mTurk 的工人被频繁用于建立这些训练数据集并打上标签,但他们在机器学习中的角色往往被忽视。
AI 社区与 mTurk 之间进行的那些事儿是贯穿整个机器智能史的动态之一。我们热切地赞美自动化 「智能机器」 的表象,却又忽视,或者甚至主动隐瞒使之变得可能的人类工作。
也许我们可以从作家埃德加・爱伦・坡那里吸取一些经验。当他看了 von Kempelen 的土耳其机器人之后,他并没有被幻象迷惑。相反,他在想如果棋手被困在里面的话会怎样,躲起来的那个人被齿轮和连杆 「挤得扁扁的,处于极其痛苦又尴尬的位置。」
在当下,当关于 AI 突破的新闻头条充斥于我们的新闻流时,记住爱伦坡的取证态度很重要。被卷入到 AI 的炒作当中是令人愉快的,如果说有时候会令人担忧的话,而不需要凡夫俗子的机器这一愿景也令人着迷。但如果你再仔细看看的话,很可能会看到人类劳动的蛛丝马迹。
编者注:AI 史的叙述方式往往是机器随时间转移而变得越来越聪明。但这种叙述缺少了人的要素,没有讲清楚智能机器是如何由人的身体和思想来设计、训练与赋能的。
为此,IEEE 推出了总共六篇的 AI 秘史系列文章,希望从创新者、思想家、工人甚至小贩等人如何创造可复制人类思想和行为的算法的角度来弥补这一缺失。尽管无需人类输入的超智计算机令人兴奋,但智能机器的真正历史已经证明,AI 的水平只能跟我们一样的好。此文为系列的第六篇,作者是 Oscar Schwartz,原文标题为:Untold History of AI: How Amazon’s Mechanical Turkers Got Squeezed Inside the Machine