基于强化学习和蒙特卡洛树搜索的五子棋第一手平衡点探究

刘朋森¹

扫码查看

作者信息

1. 四川大学
折叠

摘要

多数棋类游戏在没有附加规则限制的情况下，先手方占据了绝对的优势，一定程度上影响了游戏的平衡性。以五子棋为例，在基础规则条件下，先手方存在必胜的套路，极大程度影响了其竞技公平性。在训练过程中，五子棋AI也会因为开局的不平衡陷入瓶颈，导致棋力难以提升。由于五子棋状态空间非常庞大，无法通过概率论等数学方法对其进行彻底探究，所以研究通过强化学习训练的五子棋AI具有重要意义，它们可以在某些复杂的领域达到远超人类选手的实力，但目前仍需庞大的算力支持。如何降低五子棋AI在强化学习训练过程中的算力成为亟待解决的关键难点问题之一。针对上述问题，本文通过基于强化学习和蒙特卡洛树搜索算法训练的AI，研究五子棋第一手平衡点问题，即探究使五子棋胜率趋于均衡的第一手落子点问题。本文的主要研究工作和贡献如下：（1）提出基于深度强化学习和蒙特卡洛树搜索的自对弈五子棋智能算法。首先，该算法通过优化二维特征棋面描述来缩小输入的二维特征棋面规模，大幅度提升了策略价值网络的收敛速度。其次，对数据进行对称性扩充，增加存储数据的多样性和均衡性。此外，针对五子棋的特性，根据落子的步数及当前局面胜率的统计，提出动态蒙特卡洛树模拟的方法，并优化蒙特卡洛搜索次数，从而在大幅度降低了AI训练所需时间的同时，也增强了棋力。最终在优化探索与分配的参数配置方面，加入了MPI多进程等诸多方法，极大程度节约算力。（2）针对五子棋第一手平衡点问题，设计一套完整的实验流程。通过筛选平衡点范围大幅度减少测试所需时间，再利用五子棋特性，有技巧的选择所需要测试的平衡点顺序，最终得到不同棋盘大小下且使棋局趋于均势的五子棋第一手落子点。（3）通过实验表明，本文训练的五子棋AI在Gomocup中通过引擎对弈测试棋力，已达到世界顶尖水平。此外，也通过五子棋第一手平衡点实验得出关于平衡点的特点：棋盘大小小于十一格时，不存在第一手平衡点；十一格和十二格棋盘存在八个第一手平衡点；十五格棋盘上存在十六个第一手平衡点。本文设计并研究的五子棋智能算法和五子棋第一手平衡点实验，对五子棋AI的训练以及五子棋的规则设定有较大意义，同时也为其他棋类游戏规则的平衡性探究提供了思路。

关键词

人工智能/五子棋/平衡点/蒙特卡洛树搜索/深度强化学习

引用本文复制引用

授予学位

硕士

学科专业

人工智能和大数据

导师

吕建成/秦麒麟

学位年度

2023

学位授予单位

四川大学

语种

中文

中图分类号

段落导航