围棋作为一种游戏
编者按:本文转载自公众号 keso 怎么看(微信 ID:kesoview),转载已获得作者授权。
围棋存在了至少 2000 多年,它一直都是人类挑战自身认知边界的一个很好的工具,是世界公认的最复杂的棋盘游戏。在中国古代,它和琴、书、画一起,被称为文人“四艺”,代表着文人的修养和品格。
围棋是一种如此复杂高深的游戏,就如宇宙一般;围棋运行在如此简单的游戏规则之上,就如宇宙一般。围棋中充满了人世间的各种辩证关系,小与大、虚与实、轻与重、缓与急、强与弱、厚与薄、疏与密、动与静、攻与守、先与后、取与舍、死与活等等,每个人都能从围棋中悟到不同的道理。军事家看到了战场形势的转换,政治家看到了治理天下的玄机。汉代黄宪在他的《机论》中说:
弈之机,虚实是已,实而张之以虚,故能完其势;虚而击之以实,故能制其形。是机也,圆而神,诡而变,故善弈者能出其机而不散,能藏其机而不贪,先机而后战,是以势完而难制,虽然,此特弈之道耳。
这种虚和实的辩证,让围棋超出了一般意义上的游戏。“黑白演绎如世事,纹枰对弈悟人生”,一张19×19的棋盘,一副黑白两色的棋子,承载了几乎全部的东方智慧和人生哲学。通过流传下来的古代棋谱,今人可以与古人手谈,感知前人的情感,传承前人的智慧。围棋演进数千年,却让人越发发现未知之大,感叹已知之小。日本棋圣藤泽秀行有言:“棋道有百,我只知七。”对一名狂放不羁的顶尖棋手来说,这话真的不是谦虚。
但是,这么复杂、这么玄妙、这么博大精深、这么经过数千年积累、穷尽无数人心血的围棋,竟然被一个完全不依赖人类数据的计算机程序给彻底破解了。10 月 18 日,DeepMind 团队的最新论文在《自然》杂志上发表,揭示了其最新一代计算机围棋程序 AlohaGo Zero,在完全不依赖人类数据的情况下,凭借强化学习的方法,从零开始学棋,结果,仅用 3 天就以 100:0 的战绩打败曾战胜李世石的那个版本的 AlphaGo,21 天就达到战胜柯洁的那一版 AlphaGo 的水平,40 天时间已成为拔剑四顾心茫然的绝世高手。
(AlphaGo Zero 训练天数与 Elo 等级分)
在此之前,人类顶尖棋手输给 AlphaGo,还可以说,毕竟计算机的状态不会像人类一样受情绪影响,毕竟计算机强大的计算和记忆能力绝非肉身所能比,毕竟计算机超强的棋力也是来自对人类棋谱的研习,所以,输给计算机不丢人,那不过是输给了更强大的我们自己而已。但是面对 AlphaGo Zero,柯洁说:“一个纯净、纯粹自我学习的 AlphaGo 是最强的。对于 AlphaGo 的自我进步来讲,人类是多余的。”
(柯洁的微博)
没错,人类历经数千年积累下来的所有棋理、定势和手筋,其实不过是基于人类对围棋的有限认知,正如地心说是基于人类对宇宙的有限认知。对于 AlphaGo Zero 来说,这些积累下来的棋理、定势和手筋,确实是多余的,甚至是错误百出的、完全误导的。抛开人类的所有经验和谬误,不受人类影响,回到围棋本身,从零开始自我进化,才有可能逼近围棋真理。
但是,人类又不完全是多余的,至少人类设计出了围棋这个精妙的游戏,即使这个游戏计算机比人类玩得更好。AlphaGo Zero 不需要人类的经验和知识,但需要确切了解围棋的游戏规则,比如死活的界定、打劫的规矩、胜负的判断,等等。就像通过禁区、越位、任意球和点球等规则的设计,人类界定了足球这种游戏的边界和内涵。AlphaGo Zero 是辆无人驾驶汽车,但它行驶在人建造的道路上,遵守红灯停绿灯行的人类交通规则。
无师自通的 AlphaGo Zero,对围棋之外的世界是否也能无师自通?难。外部世界有多少类似围棋这样的有着清晰的边界、清晰的规则,并且所有步骤全都摆在明面上的领域?
一段时间以来,大数据与人工智能的结合,被认为是令信息技术如虎添翼的关键一步。人工智能近些年得到高度关注,全因为互联网经过二十多年的发展,已经积累并且还在每天不断产生有价值的海量数据,人工智能和大数据的结合,让两者都发生了核聚变,因此,得数据者得天下。像阿里巴巴、腾讯这样的掌握海量数据的公司,大有挟数据以令诸侯的豪气和霸气。这时 AlphaGo Zero 猛不丁跳出来说,数据根本不重要,算法才是王道,颇有点逆潮流而动的架势。
DeepMind 创始人兼 CEO 哈萨比斯说:“AlphaGo 就是新的哈勃望远镜。”这话不错,人类借助新的哈勃望远镜,来突破自身局限,重新认识世界。这等好事,求之不得。
马云说,AlphaGo 羞辱了人类,剥夺了人类的乐趣,我并不这么看。如果你有个小孩,五六岁了,我建议你送他(她)去学围棋,比围棋还好的思维训练、认知训练和情操陶冶的游戏,说实话真的不多。