GPT-4o 打《黑神话·悟空》！AI「马喽」拿捏 Boss ，胜率超人类

《黑神话·悟空》这个游戏就一个怪吗？

我承认，当朋友对我发出这样的质疑时，那一刻，我破防了。

从意识到必拿下杨戬，到必撑死虎先锋，我只花了不到半天的时间，而如果想通关《黑神话》，我们能够指望 AI 吗？

翻滚闪避，拉开距离，精怪的行动尽收眼底。

时机一到，天命人猛地挥出重棍。

借助 AI 的力量，一套丝滑连招下来，Boss 被拿捏得毫无还手之力，不知馋哭多少游戏手残党。

阿里研究团队最近提出了一个 VARP 智能体框架。而这个 AI「马喽」正是出自他们之手。

可以说，不是外挂，却胜似外挂。

直面大圣的 GPT 们，还真不比人类差

AI 直面大圣，其实也没那么复杂。

传统上，游戏 AI 靠的是游戏 API 来获取环境信息和可执行的动作数据。但问题是，并不是每个游戏都愿意提供开放的 API，或者即使提供，有的 API 也缺胳膊少腿，很难满足实际需求。

而且，传统方法也总感觉少点什么，无法完全模拟人类玩家的真实游戏体验。

基于此，阿里研究团队提出了一个新的 VARP（Vision Action Role-Playing）智能体框架。

VARP 智能体框架在接收输入的游戏屏幕截图后，通过运用一组 VLMs 进行推理，最终生成 Python 形式的代码来操控游戏角色，包括一系列原子命令的组合，如轻攻击、躲避、重攻击和回血等。

VARP 包含三个知识库：情境库、动作库和人类引导库，以及两个系统：动作规划系统和人类引导轨迹系统。

简单来说，动作规划系统相当于图书馆管理员，负责从情境库和可更新的动作库中找出最合适的资料。

系统根据输入的游戏屏幕截图，挑选或生成符合当前情境的动作，然后这些动作和情境会被存入或更新到这两个库中。

而人类引导轨迹系统则利用人类操作数据集来提升VARP 在复杂任务中的表现，比如寻路任务和高难度战斗任务等。

在动作库中，「def new_func_a()」表示由动作规划系统生成的新动作，而「def new_func_h()」表示由人类引导轨迹系统生成的新动作。「def pre_func()」表示预定义的动作。

在上文提到的《黑神话·悟空》游戏中，研究团队设定了 12 个任务，其中 75% 涉及战斗，并使用包括 GPT-4o、Claude 3.5 Sonnet 和 Gemini 1.5 pro 等 VLMs 进行了基准测试。

结果显示，VARP 在基本任务和简单到中等难度的战斗中，胜率高达 90 %。但在面对高难度任务时，VARP 的表现容易掉链子，整体水平仍然不如人类玩家。

此外，VARP 智能体在处理游戏中的决策时，因为依赖于视觉语言模型（VLM）的推理速度，所以不能够实时地分析每一个游戏帧（即游戏画面）。

换句话说，它不能像人类玩家那样，几乎瞬间对屏幕上发生的一切作出反应。相反，它只能每隔几秒钟处理一次游戏画面，选择一些重要的帧（关键帧）来进行分析和决策。

《黑神话·悟空》上线时曾被吐槽没有明确的地图，且存在大量的「空气墙」，所以在没有研究人员的辅助下，AI 也会像无头苍蝇一样找不到 Boss。

生成式 AI 点燃了世界变革的火种，而在它尚未涌入大众视野之时，普通人对 AI 更直观的羁绊或许大多源于游戏。

在电子游戏史上，AI 远比我们想象的重要

可能很多人都没想到，最早一批搭上 AI 快车的游戏会是经典街机游戏《吃豆人》。

玩家胜利的前提是吃掉迷宫内的所有豆子，而哪些看似傻乎乎的彩色鬼魂则拥有不同的追击算法，它们会以不同的路径和方式对玩家展开围追堵截。

每个鬼魂的算法招数异常简单，也缺乏任何学习能力，一旦玩家摸透了这些规律，游戏的挑战难度便会直线下降。

1987 年推出的《合金装备》则标志着游戏 AI 的另一个重要里程碑。

游戏中的 AI 角色开始展现出更为复杂的行为模式，并首次引入了对玩家的敌对反应机制。在这款游戏中，如果玩家被敌人发现，敌人会触发警报系统，呼叫增援，改变巡逻路线，甚至设置陷阱。

再后来，如果粗浅地将 AI 与游戏的发展历程用一连串标志性事件罗列出来，大致如下：

1997，IBM 的「深蓝」在国际象棋比赛中击败人类世界冠军，标志着 AI 在棋类游戏中的重大突破。
2004 年，《半条命 2》发布，游戏中的 AI 角色能够进行更复杂的决策和互动，提升了游戏的沉浸感。
2011 年，IBM 的「沃森」在智力问答节目《危险边缘》中击败了人类冠军，展示了 AI 在自然语言处理和知识推理方面的进步。
2016 年，AlphaGo 在围棋比赛中击败了李世石，标志着 AI 在复杂策略游戏中的重大突破。
2018 年，《荒野大镖客 2》发布，游戏 AI 角色和环境互动水平大幅提高，提供了高度逼真的游戏体验。
2020 年，英伟达推出了 DLSS 技术，利用 AI 加速图形渲染，提升了游戏的性能和画质。

置于当下的游戏环境中审视，游戏依然主打一个陪伴，而 AI 则如同一台放大器，将这份陪伴放大了无数倍。

在今年的 CES 展会上，英伟达使用 Avatar Cloud Engine（ACE）让游戏 NPC「活」起来，也借此火爆出圈。

在名为 Kairos 的演示中，玩家能够与拉面店老板 Jin 进行互动。虽然 Jin 只是一个 NPC，但在生成式 AI 的帮助下，像真人一样回答问题。

AI 与游戏的结合也总是让人感到既爱又恨。

就拿竞技类游戏来说吧，过往的做法只是生硬地调整难度，而现在则是模仿人的操作，让游戏体验更加真实。

支持者认为，当模拟人类的 AI 成为对手或队友的时候，反过来也能提升因缺乏真人玩家所带来的游戏竞技感。

而弊端也正在于此，玩家的的留存率是提高了，但在系统的操控下，玩家们也逃脱不了被 AI 玩弄的漩涡。

前期豪言壮语，中期胡言乱语，后期沉默不语。

当我们熬夜通宵只为再赢一把的时候，已经很难说清楚究竟是我们在玩这个游戏，还是这个游戏在玩我们。尤其当你意识到队友可能是 AI 时，那种无力感就像是拳头打在了棉花上。

心里也软绵绵的，毫无着力点。

老黄预言家！未来游戏或将由 AI 生成？

即便是代码小白，也能用 AI 手搓游戏。

这放在几年前，估计只能在梦里想想了，但生成式 AI 到来让这一切有了落地的实际空间。

往小了说，创建一个 GPTs 玩起故事剧本杀，再大了点说，那就是 AI 辅助生成的小程序游戏，虽然互动性差点意思，但胜在画面精美丰富。

再往大了说，甚至未来连 3A 大作级别的游戏，都有可能直接通过 AI 渲染生成。

去年英伟达创始人黄仁勋曾预言，未来游戏中的每一个像素都将被生成，而不是渲染。当时这话说的时候，但大家可能还半信半疑，但现在，越来越多的研究成果给这个落地找到了可能性。

通常，制作一款小型游戏的环境可能需要一周时间，对于工作室项目，创建游戏环境可能需要更长的时间，具体取决于设计的复杂程度。

上个月，Google DeepMind 公布了首个「AI 游戏引擎」GameNGen。

它能够在单个 TPU 芯片上以超过 20 帧每秒的速度实时模拟经典射击游戏《毁灭战士》。其工作原理是利用扩散模型实时预测每一帧，这意味着，游戏中的每一刻都是根据玩家的操作和环境的复杂互动实时生成的。

当时，英伟达高级科学家 Jim Fan 不禁感慨，被黑客们在各种地方疯狂运行的《毁灭战士》，竟然在纯粹的扩散模型中实现了，每个像素都是生成的。

再后来，类似更多成果也正在涌现。

前不久，腾讯也放了大招，推出了一款专门面向 3A 开放世界游戏的大模型——GameGen-O。

GameGen-O 可不简单，它能够模拟各类 3A 游戏，比如《巫师 3》、《赛博朋克 2077》《刺客信条》以及《黑神话：悟空》里的角色、动态环境，以及复杂动作等，生成的游戏场景质量也很高。

为了构建数据集，下血本的腾讯搜集了超过 32000 个游戏视频，每个视频短则几分钟，长则几小时，然后经过人工数据标注挑选了 15000 个可用视频。

这些精选的视频通过场景检测被切割成片段，然后按照美学、光流分析和语义内容进行了严格的排序和过滤。

美国游戏开发商 Electronic Arts 最近也通过一段「从想象到创造」视频，向业界展示了未来 AI 在游戏开发落地的美好愿景。

视频中，玩家仅凭简单的指令，就能使用 AI 工具创建游戏场景、角色和其他内容。

CEO Andrew Wilson 称未来生成式 AI 可改进公司一半以上开发流程，预计将在三至五年内设计创造更大、更身临其境的游戏世界。

AI 不仅能够提升现有游戏的开发效率，还可能创造出全新的游戏体验。

也许你会说，不管游戏用的是什么高大上的技术，归根结底，好玩才是王道。

但在 GTA 6 反复跳票，迟迟不见踪影的情况下，我们或许也会萌生一种自己动手、丰衣足食的念头。

毕竟，如果未来能亲手打造一个「罪恶都市」，感觉好像也还不错。

GPT-4o 打《黑神话·悟空》！AI「马喽」拿捏 Boss ，胜率超人类

直面大圣的 GPT 们，还真不比人类差

在电子游戏史上，AI 远比我们想象的重要

老黄预言家！未来游戏或将由 AI 生成？

推荐文章

本篇来自栏目

阿维塔 07 试驾： 21.99 万元起，昆仑增程抹平纯电差距

全球首款脑机接口的 AI 耳机登场，这家公司想用意识操控一切