• 媒体品牌
    爱范儿
    关注明日产品的数字潮牌
    APPSO
    先进工具,先知先行,AIGC 的灵感指南
    董车会
    造车新时代,明日出行家
    玩物志
    探索城市新生活方式,做你的明日生活指南
  • 知晓云
  • 制糖工厂
    扫描小程序码,了解更多

「时尚教皇」刷屏,载入史册的 AI 假图事件,我们如何在狂飙的 AI 中幸存

商业

2023-03-28 19:25

悬疑英剧《真相捕捉》里,情报机关为了给罪犯定罪,伪造了监控录像。

他们认为,伪造监控录像,只是将窃听材料等非法证据,「重演」为合法证据,事情的确发生了,罪犯的确犯罪了。

但是谁也不知道,使用技术的人会不会越界。毕竟,从移花接木到无中生有,从有的放矢到肆意伪造,只有人性的一步之遥。

当 AI 制图一日千里,这样的世界可能离我们并不远。

特朗普、教皇争相刷屏,全靠 AI 鬼斧神工

上周,几十张特朗普被捕的照片火爆 Twitter,它们记录了特朗普锒铛入狱的全部过程,从西装革履地走出大楼时被按在地上,到穿着囚服在铁丝网边思考人生。


不过,这些只是 AI 生成的图片。

始作俑者 Eliot Higgins 的账号被关小黑屋(现在又恢复了正常),「被捕(arrested)」这个词也被平台封了。

周末,又轮到 Twitter@skyferrori,让教皇方济各穿着巴黎世家风格的羽绒服出场

有人评价这是说唱风、DJ 范,一副要发专辑的架势。

这条推文目前浏览 2600 多万次,转发 3 万多次,骗过了很多人的眼睛。「AI 生成图片」的说明,后来才补充在图片下方。

有 Twitter 网友认为,这起事件是第一个真正大规模的 AI 虚假信息案例,可以载入史册。

更多的模仿随之而来。

特朗普下乡再就业,在街头拉黄包车;教皇换上羽绒服,奔赴星辰大海;异形体验生活,上了一天的班然后深夜买醉……


这些名人在平行世界的脑洞图片,多半出自 AI 绘画工具 MidJourney V5 版本。

V5 版本模型能够生成比 V4 版本更高质量、更真实的图像,并且有更多的定制选项和更快的渲染速度,是目前最高水平的 AI 绘图工具之一。

最直观的一点是,它基本上解决了之前 AI 画不好手指的问题,人类又失去了一个辨别真假的办法。(顺带一提, V1 版本发布于 2022 年 7 月,可见迭代速度之快)

输入的 prompt(提示词)也并不难,某个名人的名字,再加动作、地点等,即可以成图。

以上也有不少图片属于「一眼假」,接下来还有更让人眼花缭乱的进阶版本。

上周,这张用 Midjourney 生成的中国情侣照走红网络。

几天前,Reddit 网友发了一组新闻图片,记录了 2001 年北美西海岸卡斯卡迪亚发生的 9.1 级地震和海啸事件。

你可以看见报道这场灾难的各个角度:现场房屋毁坏、巨浪奔腾,滞留机场的人们露出惊恐的表情,救援人员竭力从废墟里救出被困的幸存者,新闻记者赶到现场直播。


整组照片的色调、着装、场景,都有着世纪初的味道。其中有些看起来很「业余」,像是当地居民随手拍下来的,但往往这类照片会被看作珍贵的资料。

然而,这组图片也是用 Midjourney 生成的,灾难并不存在。

类似地,网友 Arctic_Chilean 伪造了「2012 年 7 月美国太阳超级风暴和停电」事件,他觉得 MidJourney 善于捕捉 2010 年初的新闻镜头美学,在生成天际线和地标上的极光照片方面也表现出色,但无法生成城市断电的场景。

另一位网友 FinewithIX 用 AI 生成了 1969 年的登月花絮图片,模仿了当时颗粒感更强的胶片风格。

这种写实的新闻图片,没有特朗普、教皇鲜明的个人化特征,你反而更容易被迷了眼。

从 Deepfake 到 Cheapfake

打造「时尚教皇」的@skyferrori,在作品刷屏后接受了媒体采访。

他是来自芝加哥地区的一名 31 岁建筑工人,使用 Midjourney 并没有什么目的,对教皇也没有什么恶意,只是为了好玩。

意外的走红,让他后知后觉地明白了 AI 的影响之广。别有用心的人甚至拿着这些图片指责天主教会奢侈浪费。

我以前没有想过这点。人们正在接受它,认为它是真实的而不质疑它,这绝对是可怕的。

目前的大多数玩家也无非是找个乐子,但就像《真相捕捉》里探讨的伪造证据和程序正义,我们不知道边界何时被越过,以及终点在哪里。

在多数情况下,色情、政治和谣言总是先行。一位女性在地铁上的照片被 AI 一键脱衣,登上了今天的微博热搜,作恶者却隐藏在 AI 身后。当时间和地点都对得上,普通人又如何为自己分辨。

语音克隆的发展速度之快,同样令人胆战心惊。

骗子使用 AI 模仿对方家人的声音,打诈骗电话诓钱,此类案件已经在美国发生了好几起。

语音克隆这项技术并不稀奇,问题在于门槛越来越低。就像加州大学伯克利分校教授 Hany Farid 所说

两年前,甚至一年前,克隆一个人的声音,需要大量的音频。现在,如果你有一个 Facebook 页面,或者如果你录制了 TikTok 并且你的声音持续了 30 秒,人们就可以克隆你的声音。

它们甚至越来越便宜,比如 ElevenLabs 的语音克隆技术 2022 年才问世,相关服务的费用仅为每月 5 美元。

有了语音,有了图片,完全用 AI 生成视频也是有可能的。有人用 ChatGPT 生成讲话内容,用 Midjourney 生成虚拟形象,用 ElevenLabs 生成声音,用 D-ID 生成对口型的视频,做出了完整的短视频。

发现了吗?我们仍然可以去争论某张图片和某个视频的真假,但问题的核心在于它们的发展速度。

换脸的 Deepfake(深度伪造)有一定技术门槛,但现在如果你愿意花些时间上手 AI 软件,学习他人的提示词怎么写,最多再订阅一个 plus 会员,造假成本已经比之前要低。

然后,它们又广泛传播到 Twitter、Reddit、TikTok 等社交媒体。

有人称之为「Cheapfakes」(廉价伪造),考虑到制作成本和传播成本,倒也恰如其分。

The Verge 提出了一个观点:AI 曾只是一个功能,现在它逐步成为产品。

这和当年乔布斯在 Macintosh 电脑上安装鼠标和图形界面操作系统,在智能手机上接入多点触控屏幕有些类似,普通大众的使用门槛被解决,技术不再为少数精英所有,此后相关的服务才能够起飞。

过去我们常说无图无真相,但在不远的未来,有图也不是真相,有视频可能也不是真相,它们都证明不了任何问题了。

如何在技术的未来中幸存

在技术面前,意识和法律总是稍微滞后。已经出现的漏洞,还来得及弥补吗?

提供 AI 服务的公司自然要把守前线。

今年 1 月底,因为太多用户用语音克隆胡作非为,AI 语音工具 ElevenLabs 宣布引入新的保护措施,其中较为重要的 2 条是:

推出新的 AI 检测工具,验证某个音频剪辑是否使用他们的技术生成;
让某些功能只能付费使用,降低用户的匿名性,从而让他们「三思而后行」;

社交媒体也在想办法减少错误信息的传播。

TikTok 在上周宣布,所有展示真实场景的 Deepfakes 都必须被标记为虚假(fake)或更改(altered),并且公众人物的 Deepfakes 不得用于政治或商业背书。

其实,虚假图片、虚假语音、虚假视频存在良久,以前有过无数次的讨论与争锋,然而到今天,它们才成为了一个真正的问题。

2020 年,Adobe 曾经发布过「内容真实性计划」(CAI),希望打造一个系统,将来源和详细信息永久附加到图像上,并带有加密签名,现在仍在开发中

只要有人下载、截屏、编辑图像,CAI 元数据标签都将表明它是经过处理的。

这听起来非常有用,也可以沿用在 AI 作品上。

但 Adobe 也指出,需要大量硬件和软件支持,才能使系统有效运行,包括支持添加标签的相机、记录处理细节的照片编辑工具、显示标签的社交媒体等等。

这几乎涉及到从制造到传播的每一个环节,可想而知它的困难程度。

现在,AI 造假的困境也是类似的,就像从前无数次讨论 Deepfake 一样,技术公司、媒体机构乃至每个个体,都应该承担一份责任,但这恰恰是难以达到的理想情况。

在「时尚教皇」出圈后,Twitter 粉丝近 1300 万的模特 Chrissy Teigen 感叹:

我以为教皇的羽绒服是真的,没有多想。我不可能在技术的未来中幸存下来。

AI 的发展速度,让公众意识和法律法规都难以望其项背。只能说,当我们看到某张图片时,最好不要默认它是真实的。

登录,参与讨论前请先登录

评论在审核通过后将对所有人可见

正在加载中