人工智能也有歧视和偏见

在大多数科幻电影里，冷漠又残酷是 AI 的典型形象，它们从来不会考虑什么是人情世故，既没有人性光辉的闪耀，也没有人性堕落的七宗罪。

然而在现实中，人工智能技术却不像电影里那么没有「人性」，不过这可不是什么好事，因为 AI 的「歧视」和「偏见」正在成为越来越多人研究的课题，而且它们确实存在。

我们先来看几个例子：

COMPAS 是一种在美国广泛使用的算法，通过预测罪犯再次犯罪的可能性来指导判刑，而这个算法或许是最臭名昭著的人工智能偏见。根据美国新闻机构 ProPublica 在 2016 年 5 月的报道，COMPAS 算法存在明显的「偏见」。根据分析，该系统预测的黑人被告再次犯罪的风险要远远高于白人，甚至达到了后者的两倍。

▲ 图片来自：Medium

可能你在直觉中也会认识黑人的再犯率会高于白人，但这并不和实际情况相符。在算法看来，黑人的预测风险要高于实际风险，比如两年内没有再犯的黑人被错误的归类为高风险的几率是白人的两倍（45% 对 23%）。

而未来两年内再次犯罪的白人被错误认为是低风险的概率同样是黑人再犯将近两倍（48% 对 28%）。

人工智能的偏见，早已深入了各个领域。

在 AI 技术应用领域，面部识别也是一项广泛使用的应用类型，并且这会成为种族和性别偏见的另一个潜在来源。2018 年 2 月份麻省理工学院的 Joy Buolamwini 发现，IBM、微软和中国公司 Megvii 的三个最新的性别识别 AI 可以在 99% 的情况下准确从照片中识别一个人的性别，但这仅限于白人。对于女性黑人来说，这个准确率会降至 35%。

▲ 图片来自：FPT University

一个最可能的解释是，AI 的「偏见」取决于背后训练算法训练的数据，如果用于训练的数据里白人男性比黑人女性更多，那显然白人男性的识别率就会更高。IBM 后来宣布他们已经采用了新的数据集并重新训练，微软也表示会采取措施提高准确性。

另一个研究是 Facebook 的人工智能实验室的研究成果，他们发现人工智能的偏见不止存在于国家内部，在不同国家之间也是存在的。

比如当被要求识别来自低收入国家的物品时，Google、微软和亚马逊这些人工智能领域大佬的物体识别算法会表现更差。

研究人员对五种流行的物体识别算法进行了测试，包括 Microsoft Azure，Clarifai、Google Cloud Vision、Amazon Rekogition 和 IBM Watson。

测试的数据集包含了 117 个类别，从鞋子到肥皂到沙发以及更是各样的物品，这些来自于不同的家庭和地理位置。跨域了从布隆迪（非洲中东部的一个小国家）一个 27 美元月收入的贫穷家庭，到来自乌克兰月收入达到 10090 美元的富裕家庭。

研究人员发现，与月收入超过 3500 美元的家庭相比，当被要求识别月收入 50 美元的家庭时，物体识别算法的误差率大约会增加 10%，在准确性的绝对差异上甚至会更大。与索马里和布基纳法索相比，算法识别来自美国产品是准确率要提升 15-20% 左右。

▲ 图片来自：Startup Thailand

这就是问题所在。目前的人工智能背后需要即为大量的数据去训练，尽管人工智能本身不知道「歧视」和「偏见」是什么意思，但背后数据的研究人员却会带有这样的思想，以至于在训练数据的选择上就会产生偏向性。

通常情况下，在创建 AI 算法的过程中会有许多工程师参与，而这些工程师通常来自高收入国家的白人家庭，他们的认知也是基于此阶级，他们教导 AI 认识世界也是如此。

当然这并不是全部原因，在 2015 年的一项研究中显示，使用 Google 搜索「CEO」的图片，其中只有 11% 的人是女性。我知道男性 CEO 的确比女性 CEO 比例要多很多，但实际上美国有 27% 的 CEO 是女性。而匹兹堡卡内基梅隆大学的 Anupam Datta 领导的另一项研究发现，Google 的在线广告系统展示的男性高收入工作也比女性多很多。

Google 对此的解释是，广告客户可以制定他们的广告只向某些用户或网站展示，Google 也确实允许客户根据用户性别定位他们的广告。

另一大巨头亚马逊也曾遇到过 AI 歧视的问题。2014 年的时候亚马逊在爱丁堡成立了一个工程团队以寻求一种自动化的招聘方式。他们创建了 500 种计算机模型，通过对过去的入职员工简历进行搜索，然后得出大约 50000 个关键词。

「当时他们在这个算法上寄予了很大期望，喂给它 100 份简历，然后它会自动吐出前五名，OK，我们就雇佣这些人。」当时一位消息人士是这样告诉的路透社。