598.请你做一个不讲武德的大师(第10章) (第4/8页)
,通过整体局面判断来辅助落子选择器。这个判断仅仅是大概的,但对于阅读速度提高很有帮助。
通过分析归类潜在的未来局面的“好”与“坏”,博米围棋大师能够决定是否通过特殊变种去深入阅读。
如果局面评估器说这个特殊变种不行,那么就跳过阅读。
这些网络通过反复训练来检查结果,再去校对调整参数,去让下次执行更好。这个处理器有大量的随机性元素,所以人们是不可能精确知道网络是如何“思考”的,但更多的训练后能让它进化到更好。
博米围棋大师为了应对围棋的复杂性,结合了监督学习和强化学习的优势。
它通过训练形成一个策略网络,将棋盘上的局势作为输入信息,并对所有可行的落子位置生成一个概率分布。
然后,训练出一个价值网络对自我对弈进行预测,以-1(对手的绝对胜利)到1(博米围棋大师的绝对胜利)的标准,预测所有可行落子位置的结果。
这两个网络自身都十分强大,而博米围棋大师将这两种网络整合进基于概率的蒙特卡罗树搜索中,实现了它真正的优势。
新版的博米围棋大师产生大量自我对弈棋局,为下一代版本提供了训练数据,此过程循环往复。
↑返回顶部↑