阿尔法狗的机器学习算法:蒙特卡罗算法

首先面对一个盘面,假如轮到阿尔法狗执白走棋了, 阿尔法狗先随机选择棋盘中任意一点,然后黑棋也随机走一个点,然后阿尔法狗继续随机下一个点,然后就这样轮流上大约100步后,分析一下局面胜负,然后 阿尔法狗将上述过程重复上亿次,然后阿尔法狗统计一下,第一步走哪个位置时,统计出的胜率最大,比如第一步走33时,后续100多万局的随机局面中,最终结果输的局面使40万局,最终赢的结果是60局万,走43时,输的局面是55万局,赢的局面是45万局,那么阿尔法狗的判断就是走33。

阿尔法狗不可能穷举所有可能的,阿尔法狗只是通过大量重复性的随机试验,找出一种胜率较大的下法,当然这种下法不一定是最优解,只是说这种下法是最优解的可能性最大。

总结一下,也就是说,围棋其实并没有被人工智能攻破,理论上阿尔法狗每走的一步并不一定是最佳走法,只是说阿尔法狗走的这步棋是最佳走法的概率较大。

也就是说从算法角度来看并没有证据证明阿尔法狗走的棋就是最优走法,从理论上来讲围棋并没有被人工智能破解。

围棋界职业顶尖选手也不能保证每场次都是最优的,因为人是会有情绪波动的,而机器永远是稳定状态的。



相关文章