一个纯净、纯粹自我学习的 AlphaGo 是最强的……对于 AlphaGo 的自我进步来讲……人类太多余了。

—— 柯洁

大声

2017-10-19 12:51

2017 年 5 月,在中国乌镇举行的「人机终极对决」,当今世界排名第一的人类围棋选手柯洁,输给了 Google 旗下的人工智能程序 AlphaGo。

尽管自那之后,人类还在不断追赶,但 AlphaGo 却已飞升到了更高的境界。

10 月 18 日,DeepMind 在《自然》杂志上发表了新论文,正式向世人介绍了 AlphaGo 的最新版本——AlphaGo Zero,官方称之为 AlphaGo 的「终极版」(Final Version)。

AlphaGo Zero 有多强?

当初以 4:1 完胜李世乭的 AlphaGo Lee,已经是人类围棋界的顶级水平,但与 AlphaGo Zero 对弈,比分是 100:0,完败。

几个月前,在乌镇以 3:0 击败柯洁,成为世界冠军的 AlphaGo(Master),也被 AlphaGo Zero 挑于马下——胜率高达 90%。

毫无疑问,AlphaGo Zero 就是当今世上棋力最强的围棋选手。更可怕的是,AlphaGo Zero 的成长,完全没有人类进行干预。

以往,AlphaGo 的成长,主要是先通过分析成百上千份人类高手的棋谱,再进行自我对弈的方式来提高水平——人类高手的棋谱会告诉 AI,到底该把子落在哪个位置才对。可是对 AI 来说,学习人类的下棋方式,成本实在太高了,可能会走很多弯路。要是一开始就完全抛弃人类的经验,那结果又会怎样?

怀着这样的思考,AlphaGo Zero 诞生了。从一开始,AlphaGo Zero 就是一张白纸,人类只教给了它最基础的围棋规则,以致于最开始,AlphaGo Zero 甚至会填真眼自杀。

但仅仅过了三天,AlphaGo Zero 就有了惊人的进步,曾经击败李世乭的 AlphaGo Lee,此时已经不是 AlphaGo Zero 的对手。整整 100 场对决,没有赢过 AlphaGo Zero 一次。

自我对弈到 21 天时,AlphaGo Zero 已经达到了 Master 的水平,2016 年底,Master 曾在网上与数十位人类顶级棋手交战,最终以 60:0 的大比分完胜。

最终,当 AlphaGo Zero 自我对弈到第 40 天时,已经击败了之前所有版本 AlphaGo 程序,成为新晋的「世界围棋冠军」。

(AlphaGo Zero 成长曲线,图片来源:DeepMind

有意思的是,AlphaGo Zero 自学而成的许多围棋知识,包括打劫、征子、棋形、布局先下角等,都与人类围棋观念一致,这也间接呼应了人类千百年来围棋研究的价值。

AlphaGo Zero 强大的秘密在哪里?

AlphaGo Zero 采用了新型的「强化学习」模型,让自己成为自己的老师。尽管一开始,对弈双方的水平都不怎么样,但经过将神经网络与强大的搜索算法相结合,不断地对棋路进行调整,最终得以预测对手的动作,并取得胜利。

AlphaGo Zero 进行自我对弈的好处在于,每一场对决,双方的棋力都处在同一水平线上,每场对弈过后,系统性能都会小幅上升,自我对弈的水准越来越高,AlphaGo Zero 也随之变得越来越强。

(AlphaGo Zero 不同阶段的棋局变化,图片来源:DeepMind

这项技术让 AlphaGo Zero 得以完全摆脱人类的束缚,创造自己的知识体系。虽然调用的算力更少了,却能成为了更强大的棋手。

与之前版本相比,AlphaGo Zero 有几大差异:

  • AlphaGo Zero 仅仅调用棋盘上的黑子与白子下棋,而过去版本的 AlphaGo,多少还有一点人工设计的功能
  • AlphaGo Zero 只使用了一套神经网络。早期版本的 AlphaGo 里内置了两套神经网络模型,其中一套「策略网络」,用于判断下一步该怎么走;另一套「价值网络」,用于预测到底哪方才是胜利者;而 AlphaGo Zero 将二者合而为一,能够更高效地进行训练,并且提升对赛况的判断力
  • AlphaGo Zero 不再使用「Rollouts」——大部分围棋程序会通过快速、随机地落子来判断棋局的走向,但 AlphaGo Zero 则是通过优质的神经网络来对下棋位置进行评估。

这些差异让 AlphaGo Zero 的系统性能更强、更具普适性。算法的改进让整套系统变得更加强大、运行更为高效。

硬件与算法的进步也让 AlphaGo Zero 所需要的算力大大降低,仅仅需要 4 个 TPU(由 Google 开发的人工智能专用芯片),而与李世乭对弈的 AlphaGo Lee 所需要的算力多达 48 个 TPU,是 AlphaGo Zero 的 12 倍。

(历代 AlphaGo 所需的算力对比,图片来源:DeepMind

长期以来,不少人有这样的误区:机器学习最重要的就是大数据和海量计算。但 AlphaGo Zero 的出现证明,合适的算法,可能比数据和算力更重要。DeepMind 的 CEO Demis Hassabis 表示:

我们正在努力尝试建立通用算法,这仅仅是一小步,但足以振奋人心。

未来,我们或许能在围棋之外的多个领域见到 AlphaGo 活跃的身影,也许是帮助医疗人员设计新药,也可能是帮助气象专家预测天气——如果通用算法诞生,那么许多科学问题也可以借助 AI 的力量来解决。

AI 是否真的能够超越人类,现阶段我们无从得知。但或许正如柯洁所言:

一个纯净、纯粹自我学习的 AlphaGo 是最强的……对于 AlphaGo 的自我进步来讲……人类太多余了。

题图来源:The Verge

后评论

评论在审核通过后将对所有人可见

正在加载中

一个国家的强盛是在小学教室的讲台上完成的。教育就是最廉价的国防。

查看全文 —— 任正非,华为创始人

那些认为苹果急切需要寻找「next big thing」的人,全都想反了。

查看全文 —— Steven Sinofsky,微软前 Windows 事业部总裁

(开放式公室)不是用来提高生产力或协作效率的,而是用来表现该公司正在做有趣的事情。

查看全文 —— Calvin Newport

产品简单,才是 Netflix 的秘密武器。

查看全文 —— Shira Ovide,《彭博社》评论员

摩尔定律结束了。

查看全文 —— 黄仁勋,英伟达 CEO