一句话创造一个新物种,微软这个新工具让你当一回「造物主」
现在是咸蛋超人直播答题现场,奖金 100 万,请看本次答题的最后一题:
图片中的这只鸟类的学名叫什么?
如果真有这题,估计没人能真答对。即使用上了答题助手,求助科学达人,甚至动物学家都会全军覆没。
因为这只小鸟实际上并不存在,是微软的 AI 工具 AttnGAN 生成的一张假照片,操作十分简单,只要你根据想象输入对这只鸟类的一句话描述,这只不存在的鸟类就诞生了。
这是微软研究实验室最近开发的一项人工智能技术 AttnGAN ,可以让 AI 根据类似字幕的文本描述生成相应的图片。
其实根据文本生成图像的技术不算新鲜,但微软称 AttnGAN 生成的图像质量比此前的文本生成图像技术相比提高了近 3 倍,微软研究实验室的首席研究员 Xiaodong He 表示:
四年前还没人相信这个技术能做到这种程度。
当 AI 拥有想象力
到底 AttnGAN 这项技术有什么了不起,总结起来其实就三个字:想象力。
以开头那只小鸟为例,如果我们要凭空画出来,大概步骤会是这样,先在那脑海中想象这幅画的样子:一只腹部红白相间、黑色翅膀、短喙的小鸟。然后先在纸上勾勒出鸟身的轮廓,然后用不同颜色的画笔画出鸟身的各个部位,最后画上黑色短小的鸟喙。
(图自:时光网)
而 AttnGAN 也可以完成这样需要丰富想象力的工作,微软研究人员称之为绘图机器人。Xiaodong He 认为这样这项技术的挑战在于,需要让绘图机器人想象出文字描述中没有包含的细节:
这意味着,你需要让 AI 通过机器学习的算法想象出这个图像中缺失的部分。
目前 Google 和 Adobe 的一些图片生成技术都是基于真实的图片开始生成,而微软这个绘图机器人则是从像素点开始生成,是真的「凭空想象」。
(小鸟照片生成过程)
比如那幅小鸟的照片,输入的文本中并没有提到它会站在一个树枝上,最后的结果其实是来自 AI 在大量数据学习后的想象。
这一切都是通过一个生成式对抗网络(Generative Adversarial Network,GAN)完成的。顾名思义,这是由「敌对」的两个机器学习模型组成。一个负责从文本描述生产图像,另一个是鉴别器(discriminator),负责判断生产图片的真实性。
如果鉴别器判定生成的图片不合格,就会打回重做。而负责从文本描述生产图像的 AI 模型则要想方设法提高图片的真实性,以「欺骗」鉴别器的火眼金睛。两者相互矛盾又相互配合,让最终生产的图片可信度更高。
此外微软的这个绘图机器人高度模仿了人类绘画的思路。在人类的绘画过程中,会对正在描绘的部分十分专注,根据反复想象画出下一部分的内容。
AttnGAN 模拟了了这个过程,将输入的文本拆解为各个单词,再分别将这些关键词与图像中的特定区域相匹配。微软研究实验室的首席研究员 Xiaodong He 表示:
注意力是一个人类的概念,我们把这个概念变成了一个机器学习的问题。
尽管微软这个绘图机器人在文本到图像的生成方面取得了突破,不过实际上目前仍不够成熟。上文中提到的那只「不存在」的小鸟,照片像素只有 256 x 256,这已经是它能做到的极限了。
而这些机器生成的照片如果仔细查看,还是会有不少破绽。比如这幅这张根据「摆放了香蕉和奇异果」的文本描述生成的照片,可以看到香蕉发生了明显的变形。
而面对某些更为复杂的文字描述,AttnGAN 显然还无法很好地理解。研究人员对其进行了一系列难度测试,比如输入「漂浮在湖面上的红色双层巴士」。结果生成的却是一艘红白相间的游艇,可能是 AI 认为巴士漂浮在湖面并不可能。
而一些看似简单的文字描述 AttnGAN 也未必能领会,比如面对「一个吃披萨的女孩」的文字命令,它生成的是一张人脸几乎无法辨认甚至有点惊悚的照片。
微软的研究人员表示,这个绘图机器人还需要学习更多常识和背景知识才能绘制出更逼真和复杂的图像。
绘图机器人是福还是祸?
说了这么多,微软的绘图机器人在生活中有有什么用呢?
微软表示,随着这种文本到图像的生成技术逐渐成熟,它可以作为画家和设计师的智能助理,还能通过语音指令来美化图片,甚至能基于电影剧本生成动画电影,降低动画电影制作的成本。
(AI 编剧的电影《 Sunspring 》,图自:YouTube)
不过如果生成一张虚构照片真的只需要一句话,这样的低门槛也可能让假新闻和谣言的滋长和传播增添一大利器。
在社交网络里,我们时常看到一些营销号「发现」了奇葩的新物种和依旧已经灭绝的动物,偶尔还会被一些媒体当作新闻报道。
其中最为知名的则是发生在 2007 年的华南虎事件, 陕西林业厅公布了猎人周正龙用数码相机和胶片相机拍摄的野生华南虎照片。
当时野生华南虎已经基本绝迹,因此照片公布后引起了全国范围的关注,不过这些照片很快就被证明是根据一张年画伪造的。
过去做这样的假新闻还需要比较好的 P 图技术,而微软绘图机器人这样的工具,可能让生成假照片变得更加容易,也更难以甄别真假。
去年 7 月份,美国华盛顿大学的研究者们就利用人工智能以及数字图像合成技术,生产了一段真假难辨的奥巴马演讲视频。
(你能分辨出哪个才是真的奥巴马演讲视频吗?图片来源:YouTube)
而最近还有人利用 AI 工具把好莱坞女星的脸嫁接到色情影片的演员上。
(《神奇女侠》主演盖尔·加朵的脸被「换」到了一个色情电影演员上,图自:motherboard)
尽管如此,也不必对这种技术过于担忧。很多科技产物本身就是双刃剑,就像核裂变的链式反应既可以给人类的大量能源,也能发生核泄漏或者变成核弹毁了一座城市。
科技让生活更美好,前提是我们能掌控它,我们要做的是想办法去掌控它,而不是因为它的副作用而把它关进盒子里。