最会玩游戏的,是 AI

AppSo

09-18 21:51

在 AI 的江湖中,率先出世并在围棋和《星际争霸 2》中击败人类顶级选手的 AlphaGo,已经宣告退隐。如今,高手仍在不断涌现,继 MOBA 游戏被「攻陷」后,AI 将触手伸向了 MMORPG 品类。今天我们故事的主角,是由腾讯 AI LAB 和天涯明月刀团队共同研发的「绝智」。

随着技术的发展,「AI 玩游戏肯定比不过人类」的认知已经一次次被颠覆。《天涯明月刀》中的绝智 AI 正是其中之一。当主播在与绝智的 1v1 决斗(游戏中被称为「论剑」)中被行云流水、轻松写意的招式轻松打败后,无一不「戴上痛苦面具」:「我怎么就输掉了呢?发生了啥?我有点接受不了……」

▲ 被绝智「轻松」打败后,游戏主播「痛苦到模糊」

人类真的赢不了 AI 了吗?APPSO 联系到了《天涯明月刀手游》的研发团队以及腾讯 AI LAB ,并对他们进行了采访,希望得到这一问题的答案。

AI 的修行,从搭建修炼场开始

「反正人类也不是第一次输给 AI 了,这次不过是换了一款游戏罢了」,相信很多人会有这样的想法。只是换了一个游戏这么简单么?联合团队的研究人员为我们分享了一段绝智 AI 的修炼之路。

想让绝智在《天涯明月刀》中成为战无不胜的大侠,第一步是为它搭建一个修炼场。

有别于人类玩家使用移动 app 或电脑软件进行游戏,AI 是以程序的形式「住在」服务器里。为了解决 AI 和游戏,以及移动 app 和电脑软件之间「语言不通」的问题,联合团队首先使用了微软的 .Net Core 作为解决方案,无需重新编写大量的代码就可以让绝智跨越多种平台与玩家「见面」。

而为了让绝智真正「见到」玩家,联合团队也动了一番心思。

首先,团队去除了原有程序内不相关的要素,专门搭建了包括人物属性、技能伤害等游戏内各种参数的基础数据库,让绝智 AI 能以最少的负担正常运行。

其次,在线上进行一场《天涯明月刀》的 1v1 对战,其实就是让两个不同的服务器的玩家进入一个「跨服服务器」进行战斗。由于这个流程可能会横跨六七个服务器,有时还需要中转,整个过程对服务器的要求是很高的,同时还会消耗大量资源。

为了提高训练效率,联合团队采取了一个巧妙的方法,那就是训练过程中只保留跨服服务器。让绝智 AI 直接「住在」跨服服务器上,把原本需要的资源量精简到不足一半,从而让战斗得以顺利进行。但即便如此,联合团队依然消耗了几百台服务器,用来保证同时进行几十万 AI 的不断训练强化。

最后,对战场地自然重要,但观战与复盘同样不可或缺。为了及时发现训练过程中的问题、保证整体效果。团队运用一套工具来实时监控和调整 AI 的战斗场次,甚至可以用来随时观看任一场 AI 的对战过程。

解决了跨服战斗和手游移植的问题后,绝智 AI 才算是正式步入天刀武林了,完成了他成为武林高手的第一步。那绝智 AI 又是如何成为站在天刀论剑顶峰大侠的呢?这是它接下来的故事。

从初出茅庐到战无不胜,这是绝智的修行之路

就像看完魔术,我们想知道背后的秘密,在看完 AI 打败主播后,玩家肯定也想知道 AI 为什么这么强,它是怎么打败人类的。

而在介绍开始之前,我们先看看绝智到底用什么样的操作,让主播直呼「接受不了」。

▲ 绝智的连招操作,为最大化造成伤害进行技能衔接与组合.

▲ 在主播施放特定技能的瞬间进行格挡,避免自己陷入破定状态,并快速反击.

每种游戏 AI 都是同样的「战无不胜」,但它们的训练方法却因游戏类型而完全不同。绝智 AI 在《天涯明月刀》这款 MMORPG 游戏中,自然有着与其他 AI 完全不同的成长经历。要聊绝智 AI,就先得聊聊《天涯明月刀》有什么不同点。

当玩家在《天涯明月刀》中设定好一个角色后,从不同职业带来的技能差异到玩家在成长中不同的个性化选择,再到玩家操作水平和对游戏的理解,让天刀中的每一个角色都有所不同、千人千面。到了论剑场上,一招一式的针锋相对,每时每刻的见招拆招,都需要玩家进行连续不间断的决策选择。如果想要进行不同职业间的对决,你还要对其他职业足够了解,才能游刃有余。

▲ 天刀手游中,每个门派都有数个主动和被动技能,而端游则更加复杂.

对玩家来说尚要如此,对绝智 AI 来说更是一种挑战。

为了让绝智 AI 可以快速的成为《天涯明月刀》中的武林高手,一个可以让它随时切磋对战的对手(强化学习训框架)就必不可少了。

联合团队依托自主研发的大规模强化学习平台,通过成千上万场的对战,在保证 AI 在训练过程中循序渐进的提升行为策略前提下,为各种各样的战局状况寻找最优的对应方式。

就像上文说到的,丰富的职业、技能、装备让论剑对局有无限可能,每一步操作都拥有非常庞大的探索空间。为了让绝智 AI 走好论剑对战的第一步,在训练初期阶段,通过引入一些课程学习策略,如随机设置 AI 在地图中的出生位置、初始化不同的状态值等,起到加速探索的目的。

同时,在整个对战期间,为了减少 AI 进行原地打转、空放技能等无意义操作,还利用 Action Mask 对技能使用的条件进行了限制,保证 AI 不会在无法命中目标或者还未冷却时释放技能,从而降低它的探索空间,以便更高效的投入战斗。

▲ 如果没有妥当的引导,AI 在学会高效战斗前会浪费大量的时间摸索技能释放.

那么,要如何让 AI 知道什么时候该做什么事情呢?AI LAB 的项目负责人介绍,很重要的一点是 reward 设计。简单来说,就是对各种目标设定一个奖励分,举个例子,如果 AI 用技能打到了对手,就给正分数,如果 AI 空放了技能,就给负分数,AI 的最终目标就是顺利赢下这场对决,分数越高越好。

好的 reward 设计可以快速引导 AI 学习,但设计和验证 reward 都有很高的成本,一方面,AI 可能找到捷径,用特殊的方式拿到高分,另一方面,奖励的设置,在一定程度上也会限制 AI 的发挥。

根据《天涯明月刀》的游戏特点,AI LAB 与天刀联合团队针对角色生命值状况设置了「血量零和」reward,来强调己方生命值损耗比对方更少;而影响战斗的「压制」和「浮空时间」reward,则能引导 AI 学习如何通过技能组合长时间压制对手和浮空连招,来提升战斗效率——不仅要赢,还要赢得高效漂亮。

▲ 经过引导与强化学习,AI 对浮空连击技巧的应用已经炉火纯青.

对于玩家来说,「战无不胜」是他的终极目标,但对于 AI 来说,这只是它的第一阶段:绝智 AI 还有一个更重要的任务:满足不同玩家的游戏需求——失败是另一种成功。

上面提到,除了复杂的技能树与多种职业带来的庞大探索空间,《天涯明月刀》还有一个非常重要的差异点:那就是玩家差异。

在天刀的游戏世界里,装备、经脉、心法等成长要素都会影响玩家的功力——功力是一个对玩家战斗力水平的评价数值,由游戏中各维度属性影响——在不断成长的过程中,每个玩家的进度都是不一样的。即使功力相似,玩家的操作水平也有高低之分。

正是角色本身的功力差异以及每个玩家的操作水平,才构成了玩家的段位。那么,绝智 AI 是如何覆盖所有玩家的呢?其实这是两个问题:「如何覆盖所有功力」和「如何覆盖所有操作水平」。

▲ 与多数竞技游戏类似,在天刀中玩家也能通过胜利不断提升段位,证明自己的同时获得奖励.

针对不同的功力,绝智采用了一个大规模的功力模版泛化去覆盖所有功力的玩家。「战无不胜」的绝智对《天涯明月刀》论剑的策略已经非常清楚了,进行大规模泛化后,基本可以覆盖到所有功力的玩家;而针对不同操作水平的玩家,则采用了能力分级技术,把绝智 AI 的能力降下来。

通过这两个方法,不同段位的玩家就能匹配到不同实力的绝智 AI,从而满足不同功力、不同操作能力的玩家需求——不是绝智变弱了,而是它可以根据你的能力点到为止。

▲ 从最低到最高跨越了 24 个段位,而玩家也呈现正态分布.

说起来简单,但绝智的成长之路,可远没这么简单。《天涯明月刀》的战斗策划 elsli 告诉我们,绝智的最初版,别说是连招,就连攻击玩家都做不到,只会站在原地空放技能,或者不停的撞墙。它的操作,连一个游戏的初学者都比不上。

而随着百万小时的对战训练和千万场的论剑对决,reward 设计逻辑的不断优化,那个只会在原地空放技能的 AI,就像一个初出茅庐,想要在武林中打出一片天地的少侠,逐渐学会了战斗、格挡、连招,终于有一天,天刀的战斗策划突然发现:我好像打不过它了。

今天的绝智,战斗策划已经无法通过和它对战来判断新的模型是否有进步——反正都是打不过,完全无法判断 AI 到底有多强。

而当绝智到手游端后,许多新玩法新套路,都是策划、玩家在看过绝智 AI 的操作后才恍然大悟:原来还能这么玩。

▲ 经过刻苦训练后,AI 已经可以轻松「拿捏」大多数对手,甚至是「教他的老师傅」.

能战无不胜,也能点到为止,能陪玩战斗,也能教你套路,绝智正在规划的道路中不断前进,又在前进的道路中不断为我们带来惊喜。

战无不胜、点到为止,绝智的大侠风范

绝智到底有多强?《天涯明月刀》的战斗策划给我们的答案是:超出预期。

作为一个陪玩 AI,绝智的目的还是让玩家可以获得更出色的游戏体验。而对玩家来说,不论是端游还是手游,关于 AI 玩家无非有以下三种期待:看到实力超群的游戏主播、职业玩家被 AI 打败;看 AI 之间进行对决,用绝对理性强大的操作来评判出武林中的最强门派。最后一个,也是最重要的一点:玩家希望有一个可以随时可以与它对战的人。

▲ 每个「战斗系」玩家都需要一个最了解自己又水平相当的陪练,甚至是「孤独求败」的顶端玩家.

《天涯明月刀》团队对绝智 AI 的期待是,可以与不同功力、不同操作水平的玩家在论剑对决中,保持 40% 的胜率。可自我成长能力超过策划预期的绝智 AI,在打败人类的道路上一骑绝尘,在之前与游戏主播的对战中,更是拿下了 13 连胜的成绩,什么,设计目标是胜率 40%?

「虽然节目效果很好,但这真的不是我们的目的」——《天刀》的策划在采访时略显抱歉,但同时也能感觉到他对绝智的骄傲。

在采访的最后,《天涯明月刀》团队为它打出了 8 分的成绩:绝智足够强,但强大并不是《天涯明月刀》团队所追求的,让绝智能在论剑中保持点到为止的表现,并把它应用到更多游戏场景中,让玩家拥有更好的游戏体验,用 AI 技术去创造新的游戏性,才是绝智的发展目标。

今天的绝智已经完成了一个稳定的训练框架,从接入游戏职业到 GameCore 的职业实现、进行 AI 训练,再到即时稳定的训练建模,已经可以在很短时间内在手游端训练出最强 AI。即使有版本迭代、职业调整,也可以快速完成训练。

绝智可以变成最强 AI,一人一剑战无不胜,但让不论什么水平的玩家,都可以在论剑或者其他游戏场景中,找到一个符合自己技术水平、装备功力的 AI,在和它大战三百回合后收获成长。那种峰回路转、柳暗花明的对局,才是最符合玩家期待的,陪伴玩家练习和成长的「最强 AI」

在这条道路上,绝智正在不断探索、不断前进,来为玩家创造新的游戏性。

绝智的成长,还未到尽头

在主播与 AI 的战斗中,除了绝智格挡反击等让玩家觉着不可思议、引发阵阵赞叹的流畅操作,还有另一场景同样让直播间充满了欢乐的气氛:在主播残血即将失败时,绝智并没有来结束战斗,而是连续翻滚,似乎在「嘲讽」主播。

我原以为这是绝智的一个新奇的设定,而 AI LAB 的研究人员很坚定的告诉我们:虽然玩家反馈很好,但不得不承认,这只是一个 Bug。

▲「嘲讽」主播的绝智 AI「秦一十一」,被观众笑称为「主播的一生之敌」.

强大的 AI 打败真人玩家,这是玩家想要看到的,但玩家更想看到的,是 AI 不只单纯的强,而且更具人性、更有温度。那时的 AI,可要比单纯的战斗力强要更加令人赞叹。

不过,虽然从理论上来讲,AI 零延迟的反应速度、可以记住所有技能冷却、判定范围的记忆力是大多数玩家无法匹敌的高度,但对顶尖的、拥有比普通玩家更快反应速度的职业选手来说,现在的绝智 AI 并非无法战胜,这是人类策略的胜利。在游戏策略方面的进化,同样是绝智未来想要拓展的方向之一

那么,绝智的未来会是什么样的呢?

在我们询问对未来的计划时,已经在天刀论剑中创造出「最强 AI」的研发人员反而谦虚了起来:「就是脚踏实地,先一步一个脚印吧。」而策划口中的「一步」,已经在《天涯明月刀》的故事中开始酝酿。

「科技」与「武林」,似乎是两个完全无法连接起来的概念,但在《天涯明月刀》中,它却意外的有些和谐。从落眼于江湖的「孔雀翎」主题,到落眼于天下的「大悲赋」主题,《天涯明月刀》即将开启落眼于宇宙的「血鹦鹉」主题。绝智,则是开启这个新时代的钥匙。

▲ 或许未来,游戏内的 NPC 将由 AI 接管,变得更加栩栩如生.

现在提到宇宙,我们会想到浩瀚星空,但作为一个古词,宇宙指的本是天下四方、古今往来的一切浩瀚神灵,而「绝智」之名,正来自天刀世界中,以脚步丈量九州、以手眼描绘风物,醉心于科技探索和发明创造的组织「绝智轩」。这样的设定,让绝智 AI 进入天刀宇宙显得非常融洽。

《天刀》IP 的世界观构架师则表示,会把绝智系列 AI 融入游戏本身的设定中,古今辉映的天刀宇宙,会因绝智 AI 的加入来开启全新的「血鹦鹉」主题。

在端游的实践中,研发团队们发现许多 AI 都有了忠实的粉丝,玩家会根据 AI 设定上的特色,为他们赋予「比较怂」、「有心计」等性格。而在《天涯明月刀》未来的规划中,绝智 AI 也确实将延伸出符合 AI 性格的人设,在陨星之战(手游)、馥郁之战(端游)等主题战场上大展身手,甚至会成为「衔命绝智轩」的主题话本核心人物,让 AI 成为 BOSS,为 PVE 玩法带来更多可能。

同时,智能化 AI 的潜力不仅仅是战斗 AI,还有整个游戏世界和全新虚拟生态的构建。在未来,还会有「绝智系列傀儡」,不只陪玩家对战,还能实现设定、性格方面的陪伴,成为一个与玩家共生、陪伴玩家成长、游历江湖的玩伴,让每一位少侠的江湖之路都不再孤单。

▲ MMORPG 的特色是由千人千面的玩家组成生动的江湖,绝智 AI 的出现将创造更多的羁绊.

绝智可以是你的对手,也可以是你的师傅,可以是与职业选手对战的最强陪练,也可以是赛场中的明星选手。我们相信,在天刀团队与 AI LAB 未来「脚踏实地」的合作中,在对技术坚持、巩固以及细节的把控里,更强、更人性化、更多样性的绝智 AI 即将再一次刷新我们的认知、改变我们的体验

那个「一鞘剑光,战无不胜」的神秘剑客,还会在不断的技术精进中,为江湖书写更多神话。

登录,参与讨论前请先登录

评论在审核通过后将对所有人可见

正在加载中