前世今生,带你了解AlphaGo的发展历程

阿尔法围棋(AlphaGo)是一款围棋人工智能程序,由位于英国伦敦的谷歌(Google)旗下DeepMind公司的戴维 西尔弗、艾佳 黄和戴密斯 哈萨比斯与他们的团队开发,这个程序应用 价值网络 去盘算局势,用 策略网络 去选择下子 。
AlphaGo的重要设计者:
【前世今生,带你了解AlphaGo的发展历程】大卫 席尔瓦 (David Silver),剑桥大学盘算机科学学士,硕士,加拿大阿尔伯塔大学盘算机科学博士 。现为伦敦大学学院讲师及Google DeepMind研讨员 。

前世今生,带你了解AlphaGo的发展历程

文章插图
黄士杰(Aja Huang),台湾交通大学盘算机科学学士,台湾师范大学盘算机科学硕士和博士,加拿大阿尔伯塔大学盘算机科学博士后 。现为Google DeepMind研讨员 。
前世今生,带你了解AlphaGo的发展历程

文章插图
阿尔法围棋(AlphaGo)是通过两个不同神经网络 大脑 合作来改良下棋 。这些大脑是多层神经网络跟那些Google图片搜索引擎辨认图片在构造上是类似的 。它们从多层启示式二维过滤器开端,去处置围棋棋盘的定位,就像图片分类器网络处置图片一样 。经过过滤,13 个完整衔接的神经网络层发生对它们看到的局势断定 。这些层能够做分类和逻辑推理 。
这些网络通过重复训练来检讨成果,再去校订调剂参数,去让下次履行更好 。这个处置器有大批的随机性元素,所以人们是不可能准确知道网络是如何 思考 的,但更多的训练后能让它进化到更好 。
前世今生,带你了解AlphaGo的发展历程

文章插图
第一大脑:落子选择器 (Move Picker)
阿尔法围棋(AlphaGo)的第一个神经网络大脑是 监视学习的策略网络(Policy Network),视察棋盘布局妄图找到最佳的下一步 。事实上,它预测每一个合法下一步的最佳概率,那么最前面猜测的就是那个概率最高的 。这可以懂得成 落子选择器。
第二大脑:棋局评估器 (Position Evaluator)
阿尔法围棋(AlphaGo)的第二个大脑相对于落子选择器是答复另一个问题 。不是去猜测具体下一步,它预测每一个棋手赢棋的可能,在给定棋子地位情形下 。这 局势评估器 就是 价值网络(Value Network),通过整体局势断定来帮助落子选择器 。这个断定仅仅是大概的,但对于浏览速度进步很有赞助 。通过火类潜在的未来局势的 好 与 坏,AlphaGo能够决议是否通过特别变种去深刻浏览 。如果局势评估器说这个特别变种不行,那么AI就跳过浏览在这一条线上的任何更多落子 。
2015年10月阿尔法围棋以5:0完胜欧洲围棋冠军、职业二段选手樊麾 。2016年3月挑衅世界围棋冠军、职业九段选手李世石 。依据日程支配,5盘棋将分离于3月9日、10日、12日、13日和15日举办,即使一方率先取得3胜,也会下满5盘 。最后以4:1停止了这场 战斗。
2016年3月27日,AlphaGo确认挑衅《星际争霸2》 。2016年12月29日晚起,一个注册为 master 、标注为韩国九段的 网络棋手 接连 踢馆 弈城网和野狐网 。2016年12月29日晚起到2017年1月4日晚,master对战人类顶尖高手的战绩是60胜0负 。最后一盘前,巨匠泄漏,他 就是阿尔法围棋(AlphaGo) 。
2017年5月23日-27日柯洁与围棋人工智能AlphaGo在 中国乌镇 围棋峰会 展开对弈 。三局竞赛,分离于5月23、25、27日进行 。
在未来,Alpha Go将和医疗、机器人等进行联合,更好的服务人类 。


    推荐阅读