用网上的照片训练人脸识别 AI，该不该告知照片所有者？IBM 摊上了这个难题

人脸识别是人工智能领域最具代表性的技术之一，但 IBM 这两天却因此惹上麻烦，原因是他们用于训练机器的照片素材并未征得其所有者同意。

我们知道，人工智能的「训练」过程离不开大数据的「喂养」，例如人脸识别技术则需要为算法提供海量照片，而拥有浩瀚信息的互联网显然成了取之不尽的素材库，但之前似乎没人觉得不妥，直到 NBC 在这篇题为《面部识别的「肮脏小秘密」：数百万在线照片未经允许而被抓取》的文章中指出，人脸识别技术在研发过程中从网上获取照片素材，对其种族、性别、肤色进行分类，但照片所有者对此却毫不知情：

这些人的面孔在未经他们同意的情况下被使用，为最终用于监视他们的技术提供动力。

被点名的是 IBM，该公司 1 月份推出了一套包含 100 万张照片的素材，这些照片经历编码，并附带内容描述，报道称 IBM 正在把这套素材推销给人工智能领域的研究人员，将其用于改善面部识别技术。

▲图片来自：KnowTechie

这些照片取自著名相册网站 Flickr，一些用户惊讶地发现他们拍摄的照片出现在 IBM 采集的数据库中，但从未接到相关通知。

当然，IBM 不是唯一一个从互联网上获取公开照片的公司，许多研究机构都采用类似的方法收集照片，将其用于训练面部识别系统。

在面部识别技术开发的早期阶段，由于互联网还不像今天这样发达，研究人员只能请人们来到实验室拍摄，还需要与拍摄对象签署同意书并支付不菲的费用，费时费力不说，研究范围也大受限制。

随着互联网的兴起，获取照片素材这件事变得轻而易举，一开始我们在网上看到的多是名人、明星的照片，而在社交网络流行后，普通人的照片也日益增多，互联网俨然成了面部识别的天然数据库。

NBC 指出，学术界经常以其研究不属于商业性质为由绕过版权问题，而 Flickr 又因拥有大量「知识共享」（Creative Commons）授权照片而受到面部识别研究人员青睐。

「知识共享」是非营利性组织 Creative Commons 提供的一种著作授权方式，旨在保持作品流通权并保留所有者部分权利的同时，允许他人获取作品进行创作及共享，例如照片所有者可以仅授权非商业用途，也可以允许他人复制、改编等。

IBM 表示他们从 Flickr 获取的图片都有 CC 授权，尽管他们表示用户可以选择退出数据库，但用户在实际操作中却发现这几乎办不到，因为 IBM 的数据库并未公开，Flickr 用户无从得知自己的照片是否包含其中，更无法按要求提供照片在数据库中的链接。况且 IBM 也承认即使他们将用户的照片从自家数据库中删除，对于之前已共享给其他机构的数据库版本，他们也无能为力。