看懂“世纪围棋大战”，先温习这篇关于围棋和人工智能的知识帖

明天将会有一场必定载入史册的比赛——AlphaGo V.S. 李世石，可能有些男朋友们已经开始琢磨：

我不懂围棋，人工智能这种高概念领域也只是略有听闻。明天女朋友问起来“围棋怎么下？”、“ AlphaGo 下围棋的原理？”、“李世石是谁？”这些问题时，哑口无言多丢人啊!

别慌！

我们爱范儿明天中午 12 点的直播力求通俗易懂，早早就找来了围棋和人工智能专家进行现场解说。只要你愿意看，我们就能让你看得懂。

当然了，我们的专家解说团队不可能在直播时对每一个围棋和人工智能概念进行细致的解释。因此，我们特意准备了一篇女朋友也能看得懂的知识贴。

好了，我们先看看对战双方究竟是什么来头吧。

虽然李世石很厉害，但 AlphaGo 有高科技啊

李世石

不关注围棋的人可能不知道李世石。李世石是围棋专业九段棋手，这个段位已是专业围棋棋手中的最高级别。

当然，李世石厉害不在于他的段位，而是他能长年保持一流的水准。自 2002 年加冕富士通杯以来，他 10 年时间里共获 14 个世界冠军，是最近 10 年中获得世界第一头衔最多的棋手，公认的围棋传奇。

反正，知道李世石下围棋的水平在人类中数一数二就是了，并且他总能在最后一刻反败为胜。

AlphaGo

AlphaGo 是 Google 研发一个计算机程序，说得高大上点，就是围棋 AI（人工智能）。

AlphaGo 于 2015 年 10 月份战胜了职业二段樊麾。这句描述看起来不起眼，可这是围棋 AI 第一次在没有让子的情况下战胜职业围棋选手。至于它是怎么做到的，我们后面再告诉你。

总而言之，李世石对战 AlphaGo 是人类智力代表和高科技拼个高低，很多媒体都渲染成了“捍卫人类尊严之战” 。

看完对战双方，我们来看看围棋究竟是怎么下的。

围棋的一点小知识

围棋采用黑白两色棋子在方形棋盘上进行，这个应该没有人不知道吧。

职业围棋赛通常采用 19×19 路棋盘，棋局在空棋盘上开始，对战双方力求在棋局结束时比对手控制更多的地域。

贴目

“目”指在棋盘上的棋子所占有的交叉点。

比赛开始，执黑子一方先行。这样黑子一方就会有优势，为了消除黑方的先行优势、尽可能使黑白双方胜率一致，在终局计算胜负时黑方需要贴目。为避免和棋，贴目的目数通常包括半目。

这次 AlphaGo 和李世石的比赛采用贴 7.5 目的中国规则，也就是说，在计算胜负时黑子贴 7.5 目给白子。至于为什么是中国规则，业内专家猜测是编程非常方便。

吃子

被完全包围的棋子将被吃掉并从棋盘上移走。比如，白棋可以下在 A 位吃掉黑子。

垂直或水平相连的棋子可作为整体被吃掉。比如白棋下在 A 位可吃掉三个黑子。

劫

不能同型重复：劫的规则禁止对局双方反复提劫而形成同型重复。对手提劫后，你不能马上提回来。但是你可以在棋盘其他地方下子后再提回。也就是说你可以找劫材，对手应劫后你可以再把劫提回来。

气

气是与一块棋相邻的交叉点。比如下面白棋在 A、B 和 C 处有三口气。一块棋没有气会被提掉。一块棋只有一口气称为“叫吃”。

计算结果

棋局结束时有两种计算胜负的方法：

数子法计算围取的地域，即双方占领的交叉点的数目。
数目法计算双方围取的目数，包括死子。

如果双方手数相同，两种计算方法结果相同。

AlphaGo 是怎么下围棋的？

AlphaGO 以大量的棋谱数据为基础进行深度学习，不断完善，又通过自我模拟比赛提高实力。背后涉及到三个主要概念：穷举、蒙特卡罗树搜索和深度学习。

穷举

面对任何棋类，AI 一种直观又偷懒的思路是穷举所有能赢的方案。

穷举，是一种数学计算方法，根据部分条件确定答案的大致范围，并在此范围内对所有可能的情况逐一验证，直到全部情况验证完毕。

比如，穷举应用在密码学上被称为暴力破解法。密码如果只有 1 位数字，穷举最多 10 次：1, 2, 3, 4, 5, 6, 7, 8, 9, 0。2 位数字的密码，穷举最多 100 次就能破解。

蒙特卡罗树搜索

穷举的方案会形成一个树形地图，为计算机围棋博弈而发明的树形地图叫作蒙特卡罗树搜索（Monte Carlo Tree Search，简称 MCTS）。大致的原理是：通过统计大量的蒙特卡罗抽样结果，来选择较好的走法。

蒙特卡罗算法是对一类随机算法的特性的概括，它诞生于上个世纪 40 年代美国的 “曼哈顿计划”，名字来源于赌城蒙特卡罗，象征着“概率”。

知乎用户苏椰举了个例子帮助我们理解蒙特卡罗算法：

假如筐里有 100 个苹果，让我每次闭眼拿 1 个，挑出最大的。于是我随机拿 1 个，再随机拿 1 个跟它比，留下大的，再随机拿 1 个…… 我每拿一次，留下的苹果都至少不比上次的小。拿的次数越多，挑出的苹果就越大，但我除非拿 100 次，否则无法肯定挑出了最大的。这个挑苹果的算法，就属于蒙特卡罗算法——尽量找好的，但不保证是最好的。