重庆理工大学学报2022,Vol.36Issue(12) :129-135.DOI:10.3969/j.issn.1674-8425(z).2022.12.015

一种结合策略价值网络的五子棋自博弈方法研究

Research on a self-play method of Gobang combined with a strategic value network

刘溜 张小川 彭丽蓉 田震 万家强 任越
重庆理工大学学报2022,Vol.36Issue(12) :129-135.DOI:10.3969/j.issn.1674-8425(z).2022.12.015

一种结合策略价值网络的五子棋自博弈方法研究

Research on a self-play method of Gobang combined with a strategic value network

刘溜 1张小川 1彭丽蓉 2田震 3万家强 1任越1
扫码查看

作者信息

  • 1. 重庆理工大学 两江人工智能学院, 重庆 401135
  • 2. 重庆理工大学 人工智能系统研究所, 重庆 400054;重庆工业职业技术学院 人工智能与大数据学院, 重庆 401120
  • 3. 重庆市南开两江中学校, 重庆 401135
  • 折叠

摘要

针对传统蒙特卡洛树搜索算法存在"难以在节点的探索和利用之间做出平衡;难以聚焦重要搜索分支"等问题,提出使用策略价值网络完成棋局评估与落子着法生成,将策略价值网络与蒙特卡洛树搜索相结合.策略价值网络指导搜索树的展开,搜索结果用以持续更新网络参数,形成一种自博弈方法,在多轮自博弈中实现算法的迭代优化.实验表明:相较于各种经典搜索算法,所提算法在平均落子时间上降低了约95%,平均对局胜率达到80%以上.

关键词

蒙特卡洛树搜索/深度神经网络/五子棋计算机博弈/自博弈

引用本文复制引用

基金项目

国家自然科学基金(60443004)

出版年

2022
重庆理工大学学报
重庆理工大学

重庆理工大学学报

CSTPCD北大核心
影响因子:0.567
ISSN:1674-8425
被引量2
参考文献量8
段落导航相关论文