600 万张《纽约时报》老照片,正在 Google 的帮助下数字化

公司

2018-11-20 18:40

在《纽约时报》办公室附近一座不起眼的建筑里,地下三层,是这家百年报纸的档案库。

推门进去,眼前是一排排涂上深绿色油漆的钢制文件柜。超过 30 万张底片,和 600 万张发黄的老照片正静静躺在其中。

这个档案库由 1904 年开始运作,内部员工将它称作 The Morgue。这个词有「太平间」和「停尸间」的意思,听起来毛骨悚然,也似乎正符合老照片尘封的味道。

而现在,Google 要把这些沉睡的历史数字化了。

11 月 9 日,Google Cloud 在博客中宣布正跟《纽约时报》合作,将通过云存储等工具,为这 600 万张老照片建立一个易于搜索和识别的内部系统。

一个脆弱的时间胶囊

《纽约时报》创立于 1851 年,在 1896 年刊登出第一张新闻照片。直至 1990 年代,《纽约时报》都在用纸质方式来保存新闻照片。

▲ 1948 年的《纽约时报》档案库

用《纽约时报》首席技术官 Nick Rockwell 的话说,这个百年档案库讲述的不仅是报纸的历史,它也是一个多世纪以来的全球编年史,「是一个放满了脆弱文件的宝藏」。

Jeff Roth 是档案库的「守门人」,日常工作是编排整理好收录在档的老剪报和老照片,以及帮记者编辑找到他们需要的资料——他有一本详细的索引目录,能尽量快定位某张老照片的所在。

▲ 档案库的「守门人」Jeff Roth

虽然有 Roth 这个好帮手,但记者编辑们同样会感到烦恼。一篇好的报道需要延伸、探索、研究,有时需要翻阅回顾大量的老照片和剪报,他们在这个陈旧的档案库里一待就是几个小时。

据 Roth 估算,整个档案库被扫描成电子版本的老照片只有不到 2%

而档案库也面临着更大的现实危机。2015 年,一次水管破裂让《纽约时报》提心吊胆,虽然 90% 泡了水的照片都影响不大,但 Roth 回忆起来还是称这为噩梦。

这一直是我们的担忧。

▲ 图片来自 NPR

2012 年,《纽约时报》也曾经尝试将老照片数字化。

当时它建了一个 Tumblr 页面 「The Lively Morgue」,每周向公众分享档案库里的一张老照片,同时讲述它背后的故事,吸引了超过 10 万粉丝关注。

▲ 老照片分享计划 The Lively Morgue

这个项目一直坚持到 2017 年,每周更新 3 次,但是数字化的进度实在太慢了。负责运营的图片编辑 Darcy Eveleigh 当时这么说

如果我们每天分享 10 张存档照片,估计得到 3935 年,才能将所有照片都搬到网上来。

数字化,将给老照片赋予新的意义

这次《纽约时报》跟 Google Cloud 的合作,大概是因为 2015 年水管爆裂事件的教训。

对《纽约时报》来说,将纸质照片数字化的最大难题不在图像本身,这点只要通过夜以继日的扫描就可以解决了。但跟图像一样有价值的,是 600 万张老照片背后的海量信息。

▲ 每张老照片背后,都是花花绿绿的文字标记(右)

档案库里的每张照片,背后都有清晰的时间标记、摄影师姓名、照片摘要剪报,以及档案库位置编号等信息,堪比今天照片里自带的 EXIF 数据。

将这些扫描成图像并没有什么意义,而手动登记这些信息又将耗费大量人力,这一点让《纽约时报》头疼了很久。

而借助 Google 的 Cloud Vision API 工具,人工智能可以快速读取照片后背的信息。另外 Cloud Natural Language API 工具会像语言学专家一样,从读取到的文字中对信息进行识别归类。

比如说,当遇到下面这句照片摘要:

1942 年拥堵的宾夕法尼亚车站,这是一个勇敢者才敢坐飞机到华盛顿、迈阿密和其他车站的时代。

人工智能会将「宾夕法尼亚车站」、「华盛顿」和「迈阿密」识别为地点,然后将整个句子划分到「旅游出行」,甚至细分到「公交和火车」类。

除此之外,Cloud Vision API 工具还可以识别照片上出现的物体,从潜艇到猴子再到电话和建筑不等,甚至可以识别照片中人物的情绪是喜还是悲。

▲ 图片来自 Google Cloud 博客

这就相当于,让人工智能给老照片打上各种便于检索的标签。按 Google 方面的说法,在数字化完成后,所有的记者编辑都可以通过内部系统搜索关键词,找到相关题材的老照片。

类似的效果之前也实现过。2008 年,在《生活》杂志停刊后,Google 开始对他们接近 650 万张老照片进行数字化

这项工作在今年 3 月最终完成,作为 Google Arts & Culture 的项目「Lifetags」亮相,公众可以在网站上点击任意一个关键词,看到《生活》杂志拍摄的相关照片。

▲ 截图自 Lifetags 页面

当然机器也不是万能的。

Google 在博客中承认,目前工具对数字和文本的转录识别功能还不完善,可能会出现错漏。而「Lifetags」的网页,可能因为要处理检索的照片数量太多,加载反应也都很慢。

但工具的出现,总比手动输入归档和待在地下室一整天要来得方便。

目前,一个 6 人团队正在《纽约时报》办公室里忙着扫描这些老照片。在其中工作的 Megan Paetzhold 说,她每天会扫描大约 1500 张老照片。

如果这是一个人的工作量,那每天将有 9000 张老照片顺利存档和被识别。大概算一下,距离扫描完毕还需要 666 天。

跟「Lifetags」项目不同,即使《纽约时报》的老照片全数归档后,也只是方便内部查阅使用,并不向公众开放搜索。

但《纽约时报》称,他们会在周日刊重新开设一个分享老照片的栏目,取名为「过去时(Past Tense)」,同时也会在 Instagram 账号 @nytarchives 上更新传播。一些昔日由于版面限制没有刊登的照片,也得以重见天日。


Google 将这称作「连接过去与未来」。

《纽约时报》图片编辑 Cornelius Schmid 也同意这种说法。他认为接触到这些老照片,能给编辑记者们一个更大的世界,让他们了解是什么背景,造就近来发生的新闻事件。

而对老照片如数家珍的 Roth,好像也丝毫不担心自己的饭碗。他说:

等数字化完成,老照片就会被赋予新的意义了。

文中配图来自《纽约时报》

登录,参与讨论前请先登录

评论在审核通过后将对所有人可见

正在加载中