用网上的照片训练人脸识别 AI,该不该告知照片所有者?IBM 摊上了这个难题

生活

2019-03-19 17:40

人脸识别是人工智能领域最具代表性的技术之一,但 IBM 这两天却因此惹上麻烦,原因是他们用于训练机器的照片素材并未征得其所有者同意。

我们知道,人工智能的「训练」过程离不开大数据的「喂养」,例如人脸识别技术则需要为算法提供海量照片,而拥有浩瀚信息的互联网显然成了取之不尽的素材库,但之前似乎没人觉得不妥,直到 NBC 在这篇题为 《面部识别的「肮脏小秘密」:数百万在线照片未经允许而被抓取》的文章中指出,人脸识别技术在研发过程中从网上获取照片素材,对其种族、性别、肤色进行分类,但照片所有者对此却毫不知情:

这些人的面孔在未经他们同意的情况下被使用,为最终用于监视他们的技术提供动力。

被点名的是 IBM,该公司 1 月份推出了一套包含 100 万张照片的素材,这些照片经历编码,并附带内容描述,报道称 IBM 正在把这套素材推销给人工智能领域的研究人员,将其用于改善面部识别技术。

▲图片来自:KnowTechie 

这些照片取自著名相册网站 Flickr,一些用户惊讶地发现他们拍摄的照片出现在 IBM 采集的数据库中,但从未接到相关通知。

当然,IBM 不是唯一一个从互联网上获取公开照片的公司,许多研究机构都采用类似的方法收集照片,将其用于训练面部识别系统。

在面部识别技术开发的早期阶段,由于互联网还不像今天这样发达,研究人员只能请人们来到实验室拍摄,还需要与拍摄对象签署同意书并支付不菲的费用,费时费力不说,研究范围也大受限制。

随着互联网的兴起,获取照片素材这件事变得轻而易举,一开始我们在网上看到的多是名人、明星的照片,而在社交网络流行后,普通人的照片也日益增多,互联网俨然成了面部识别的天然数据库。

NBC 指出,学术界经常以其研究不属于商业性质为由绕过版权问题,而 Flickr 又因拥有大量「知识共享」(Creative Commons)授权照片而受到面部识别研究人员青睐。

「知识共享」是非营利性组织 Creative Commons 提供的一种著作授权方式,旨在保持作品流通权并保留所有者部分权利的同时,允许他人获取作品进行创作及共享,例如照片所有者可以仅授权非商业用途,也可以允许他人复制、改编等。

IBM 表示他们从 Flickr 获取的图片都有 CC 授权,尽管他们表示用户可以选择退出数据库,但用户在实际操作中却发现这几乎办不到,因为 IBM 的数据库并未公开,Flickr 用户无从得知自己的照片是否包含其中,更无法按要求提供照片在数据库中的链接。况且 IBM 也承认即使他们将用户的照片从自家数据库中删除,对于之前已共享给其他机构的数据库版本,他们也无能为力。

此事也引起了 Creative Commons 的关注,该组织在官网的「常见问题」中增加了对人工智能数据采集的解释,表示如果新技术开发者遵守 CC 的授权许可,可以无需征得版权所有者许可直接使用其作品,至于涉及到的隐私、伦理和数据保护法等问题,就不在 CC 的能力范围内了:

在保护个人隐私、解决人工智能开发中的研究伦理问题或规范在线监视工具的使用上,CC 授权并不是一个好工具,这些问题属于公共政策领域。

然而,数字版权组织 Privacy International 表示,未经被拍摄者直接同意,IBM 使用这些照片是错误的。

题图来自:TechPulse

登录,参与讨论前请先登录

评论在审核通过后将对所有人可见

正在加载中