首页|基于强化学习和蒙特卡洛树搜索的五子棋第一手平衡点探究

基于强化学习和蒙特卡洛树搜索的五子棋第一手平衡点探究

刘朋森

基于强化学习和蒙特卡洛树搜索的五子棋第一手平衡点探究

刘朋森1
扫码查看

作者信息

  • 1. 四川大学
  • 折叠

摘要

多数棋类游戏在没有附加规则限制的情况下,先手方占据了绝对的优势,一定程度上影响了游戏的平衡性。以五子棋为例,在基础规则条件下,先手方存在必胜的套路,极大程度影响了其竞技公平性。在训练过程中,五子棋AI也会因为开局的不平衡陷入瓶颈,导致棋力难以提升。由于五子棋状态空间非常庞大,无法通过概率论等数学方法对其进行彻底探究,所以研究通过强化学习训练的五子棋AI具有重要意义,它们可以在某些复杂的领域达到远超人类选手的实力,但目前仍需庞大的算力支持。如何降低五子棋AI在强化学习训练过程中的算力成为亟待解决的关键难点问题之一。针对上述问题,本文通过基于强化学习和蒙特卡洛树搜索算法训练的AI,研究五子棋第一手平衡点问题,即探究使五子棋胜率趋于均衡的第一手落子点问题。本文的主要研究工作和贡献如下: (1)提出基于深度强化学习和蒙特卡洛树搜索的自对弈五子棋智能算法。首先,该算法通过优化二维特征棋面描述来缩小输入的二维特征棋面规模,大幅度提升了策略价值网络的收敛速度。其次,对数据进行对称性扩充,增加存储数据的多样性和均衡性。此外,针对五子棋的特性,根据落子的步数及当前局面胜率的统计,提出动态蒙特卡洛树模拟的方法,并优化蒙特卡洛搜索次数,从而在大幅度降低了AI训练所需时间的同时,也增强了棋力。最终在优化探索与分配的参数配置方面,加入了MPI多进程等诸多方法,极大程度节约算力。 (2)针对五子棋第一手平衡点问题,设计一套完整的实验流程。通过筛选平衡点范围大幅度减少测试所需时间,再利用五子棋特性,有技巧的选择所需要测试的平衡点顺序,最终得到不同棋盘大小下且使棋局趋于均势的五子棋第一手落子点。 (3)通过实验表明,本文训练的五子棋AI在Gomocup中通过引擎对弈测试棋力,已达到世界顶尖水平。此外,也通过五子棋第一手平衡点实验得出关于平衡点的特点:棋盘大小小于十一格时,不存在第一手平衡点;十一格和十二格棋盘存在八个第一手平衡点;十五格棋盘上存在十六个第一手平衡点。 本文设计并研究的五子棋智能算法和五子棋第一手平衡点实验,对五子棋AI的训练以及五子棋的规则设定有较大意义,同时也为其他棋类游戏规则的平衡性探究提供了思路。

关键词

人工智能/五子棋/平衡点/蒙特卡洛树搜索/深度强化学习

引用本文复制引用

授予学位

硕士

学科专业

人工智能和大数据

导师

吕建成/秦麒麟

学位年度

2023

学位授予单位

四川大学

语种

中文

中图分类号

TP
段落导航相关论文