• 媒体品牌
    爱范儿
    关注明日产品的数字潮牌
    APPSO
    先进工具,先知先行,AIGC 的灵感指南
    董车会
    造车新时代,明日出行家
    玩物志
    探索城市新生活方式,做你的明日生活指南
  • 知晓云
  • 制糖工厂
    扫描小程序码,了解更多

作弊玩游戏,AI 也学坏了?

产品

2018-11-19 10:46

AI 的游戏方式大大出乎研究人员的意料。

多年以前,当我第一次见识到朋友们是如何在《超级马里奥》中通过卡一个龟壳无限刷分,在《魂斗罗》中用一种奇怪的方式获得额外生命的时候,拯救世界和公主就再也不是我想做的事了。

在我看来,游戏里发掘各种奇怪的 Bug 明显比拯救公主更有趣。

▲ 在《恶魔城:月下》里研究各种各样的出城 Bug 一直是我乐此不疲的一件事

但是现在,关于 「利用 Bug 快速完成游戏目标」 这件事情上,AI 似乎比我还要擅长。

今年四月,曾经开发出击败 Dota2 职业选手的 OpenAI 公司,举办了首届针对 AI 的强化学习竞赛。这个比赛的目标,旨在评估强化学习算法从以往经验中泛化的能力。这听起来很拗口,具体地说,就是让 AI 来玩单机游戏,而且玩的是 NES 平台上的《刺猬索尼克》。

▲ 世嘉公司在多年前开发的初代索尼克游戏成了 AI 的实验对象

每个参赛团队需要让自己研发的 AI 在不同的训练关卡上运行,通过短时间的机器学习,让 AI 掌握这款游戏的规则和操作方法,并在游戏设计师重新设计的地图上迅速找到最优的通关策略。

OpenAI 举办这次比赛的目的,是想验证这样一个观点:强化学习的强泛化性是通往通用人工智能的关键路径之一。举个例子,如果你在《CS:GO》中是一个百发百中的神枪手,那么其他的 FPS 游戏你可能也会很轻松的上手。但如果你把一个针对《CS:GO》训练的 AI 直接扔到《守望先锋》里,那么它估计会直接崩溃。

因此,参赛选手需要让 AI 自己学习游戏的策略和技巧,以便在陌生的地图上自己找到最优的通关方法。

不过这一次,AI 们好像聪明过了头。

在研究人员的调试下,AI 被告知要优先获得更高的分数(一般通过击杀敌人和拾取金环获得),同时在仅可能短的时间内到达终点。这样的条件导致了一个奇怪但有趣的结果:AI 开始通过寻找游戏内的 Bug 来更好的完成目标。

就像上面演示的这样,AI 控制的索尼克在游戏中找到了一些特殊的 「捷径」 来让自己更快的达成目标,这些捷径都是通过类似于 「卡 Bug」 的方式实现的。

这样的方式大大出乎研究人员的意料。最开始,研究人员希望 AI 能通过所提供的人类玩家数据来模仿人类的操作和行为,最终完成游戏目标。

但通过机器学习的人工智能对游戏显然有自己的一套理解,除了在游戏中寻找能让自己快速通关的 Bug 以外,它们还会做许多在研究人员眼里匪夷所思的事情。

谷歌 Deepmind AI 项目的研究人员维多利亚 · 克拉科夫纳就搜集了大量像索尼克这样的例子。

比如在一个《海岸赛艇》的小游戏里,AI 操纵的船只沉迷于利用 Bug 不断地撞击奖励目标以达到更高的分数,顺利到达终点这件事已经不在它的计划之内了。

另一个研究人员试图让 AI 玩一款经典的像素游戏《Q 伯特》,同样,AI 在游戏里找到了一个无限刷分的严重 Bug 并在时间结束之前达到了最高分。不仅如此,当它发现敌人会跟着 Q 伯特一起掉下悬崖后,AI 甚至采取了自杀的方式来获得更高的分数。

就连《俄罗斯方块》这样的游戏,AI 也能找到自己的另类玩法。由于每增加一个掉落的方块都会使 AI 的评分略微升高,所以它采取了完全错误的游戏方式——尽可能快的落下每一个方块并在快要 Game Over 时暂停游戏以确保自己不会输。

好像听上去还蛮智能的……

虽然在比赛的最后,使用特殊方法获得胜利的 AI 并没有得到研究人员的认可,但他们还是表示:

「AI 展示了它如何在没有人类介入的情况下赢得游戏胜利,出乎意料其富有创造性,可能会完全颠覆人类对游戏如何运行的理解。」

人工智能无意间找到了获取游戏胜利更好的方法,虽然暴露了目前人类对于机器学习仍无法完全控制的的缺陷,但也显露出了 AI 异于人类的创造性火花。正是这种创造性的潜力让 Deepmind 投入大量的资金来让人工智能学习像《星际争霸 2》这样复杂的竞技游戏。

在 2017 年的暴雪嘉年华上,Deepmind 宣布将让自己的 AI 尝试《星际争霸 2》这样的游戏,虽然让它和世界顶尖选手交战还为时尚早,但在今年,暴雪表示它已经可以应对其他 AI 的前期速攻战术。

在《星际争霸》2 中,有人曾经设计出一种名为 「悍马 2000」 的脚本,虽然它能凭借操作以极少的兵力战胜远多于自己部队(比如 100 条狗冲破坦克阵),但这是在后台读取游戏内部数据的结果,算是真正的作弊,而不是能够自己学习和进化的 AI。

2 年前,AlphaGo 带给人类关于围棋的新理解,也许再过不久,AI 也能用全新的战术体系来颠覆人类在星际争霸上的统治。

当然就算失败了,当一个专门找 Bug 的游戏测试员也是个不错的选择嘛。

本文来自微信公众号游戏研究社(ID:yysaag),作者为 嘤肉卫星,爱范儿经授权发布,文章为作者观点,不代表爱范儿立场。

登录,参与讨论前请先登录

评论在审核通过后将对所有人可见

正在加载中