世界上最会打牌的 15 个人,输给了这个「赌神算法」
上次 AI 战胜人类玩家,还是 AlphaGo 机器人和韩国围棋冠军交锋。
现在一个名为 Pluribus 的 AI,和世界扑克冠军 PK,再次完胜人类。
但具有突破性的是,这次不再是一对一,对手是 15 名人类顶尖扑克玩家。这也是 AI 首次在超过两个人的游戏中击败人类玩家。
这次的德州扑克比赛为期 12 天,超过 10,000 手牌,形式是最受欢迎的六人无限制玩法,Pluribus 和 15 名顶尖玩家以两种模式开展比赛。
▲ 游戏示例,人工智能系统(Pluribus)和五名职业扑克玩家对抗. 图片来自:
第一种是 1 个 Pluribus 和 5 个人类玩家组赛,第二种是 1 个人类玩家和 5 个 Pluribus组赛(其中各个 Pluribus 并未相互配合),第二种形式参赛的是 2 名扑克传奇人物——Darren Elia 和 Chris Ferguson,后者曾 6 次获得世界冠军。
结果是,Pluribus 全部胜利了。
如果它是人类玩家,一个筹码值 1 美元的话,Pluribus 将能以每小时 1,000 美元的惊人速度不断赢钱。
▲ 图片来自:Getty Images
这项成就今天也发表在《科学》杂志上,文中详细介绍了人工智能 Pluribus 如何被创造出来。
Pluribus 由 Facebook 的人工智能团队和卡内基梅隆大学计算机科学系人员一起开发,两年前他们就已经研发出了名为 Libratus 的扑克游戏系统,它在德州扑克的单挑赛中一直是世界赢家。
在和单个人类比赛中,博弈论能为 AI 提供最佳策略, 因此 AI 可以完全掌控游戏中的「特定路线」,预测每次游戏结束的结果后,反过来决定下一步的行为。
但这对于涉及多方利益且没有明确条件的多人游戏场景并不适用。
▲ 图片来自:Alexandre Rotenberg / Alamy
简单来说, Libratus 不能确定所有玩家手里有什么牌,不能了解对手的内心想法,无法琢磨对手的试探或虚张声势,以及他们的每一个投注决定,游戏可以说是呈指数级地复杂化。
因此研究人员在 Libratus 的基础上构建了 Pluribus,它的不同之处在于新使用了一种称为搜索功能的机制,能够对接下来的未知行为进行展望,而不是在预测最终结果后反推。
在同时应对其余几名玩家的复杂性之下,这种短期的敏锐性恰恰是最大的优势。
另外, Pluribus 算法的战略核心就是,它并不是从人类玩家或先前 AI 数据中的经验来训练算法,而是通过对抗自己来不断改进。
在进行数万亿次扑克游戏后,它创造出了一个基本策略模式,能够在不受人类干扰的情况下对抗自身的副本,然后在比赛中屡次借鉴它,并视现场情况自由发挥。
因为它在没有人类信息输入的情况下训练而成,所以它可以想到很多人类玩家不会使用的策略。
这些进步也表示,AI 能够使用更少的资源和更低的成本制造。
比起动辄十万美元的先进系统,Pluribus 短短 8 天内创建,在云服务器上培训也只用了不到 150 美元的费用。
而且 Pluribus 只用两个 CPU 就能运行,2016 年的 AlphaGo 系统用了 1,920 个 CPU 才赢得游戏,而且 Pluribus 内存不到 128 GB,每次下决定平均只用了 20 秒,速度是职业扑克玩家的两倍。
这次的成果也是衡量 AI 进展的一种很好的方法。
与国际象棋、跳棋、围棋不同,扑克游戏隐藏了信息和运气元素,这意味着它不能只是计算人类行为,而是必须超越它们。因为Pluribus 已经可以对抗多个该领域内的顶尖人类,研究人员表示,客观上来说,AI 已经被证明可以称为「超人」了。
▲ 图片来自:Gizmodo
对于后续的发展,联合开发者 Noam Brown 认为 Pluribus 已经到达了扑克游戏的极限,完成了最后一个挑战。接下来,这个技术将在更多场景被用到。
毕竟 AI 能在多人场景中使用,还能处理隐藏信息的能力,才更符合现实生活中的挑战。扑克游戏只是提供了一个现实世界的模型。
▲ 图片来自:unslash
这项研究将可以应用于各种各样的环境,例如网络安全、欺诈检测、金融谈判等等,甚至还可以帮自动驾驶汽车导航交通。
不过 Pluribus 的算法代码就不会像早期的系统迭代一样公开了,毕竟它可能会毁掉在线扑克世界。