重庆理工大学学报2022,Vol.36Issue(12) :136-141.DOI:10.3969/j.issn.1674-8425(z).2022.12.016

Q学习实现亚马逊棋评估函数自调参

Parameter self-adjustment of Amazon Chess evaluation function through Q-Learning

邱虹坤 王浩宇 王亚杰
重庆理工大学学报2022,Vol.36Issue(12) :136-141.DOI:10.3969/j.issn.1674-8425(z).2022.12.016

Q学习实现亚马逊棋评估函数自调参

Parameter self-adjustment of Amazon Chess evaluation function through Q-Learning

邱虹坤 1王浩宇 1王亚杰2
扫码查看

作者信息

  • 1. 沈阳航空航天大学 计算机学院, 沈阳 110136
  • 2. 沈阳航空航天大学 工程训练中心, 沈阳 110136
  • 折叠

摘要

在亚马逊棋评估函数模型中进行参数调试,主要由人工依靠经验反复实验来实现,效率较低且无法保证精度.针对人工调参效率低下、精确度不足的问题,可借助机器学习的方法来弥补.采用强化学习中Q学习的思路,构造一种具有自学习能力的网络结构,利用计算机自身反复模拟对局与迭代,实现评估函数调参工作的自动化.实验结果表明:当训练达10000次时,模型各结点Q值会趋于收敛,说明此时程序可以做出稳定合理的调参操作;在博弈实战中,模型调参后的程序也表现出了较强的棋力.

关键词

计算机博弈/亚马逊棋/强化学习/Q学习/评估函数

引用本文复制引用

基金项目

辽宁省兴辽英才计划(XLYC1906003)

辽宁省教育厅科学研究项目(JYT2020038)

沈阳航空航天大学大学生创新创业训练计划(202010143008)

出版年

2022
重庆理工大学学报
重庆理工大学

重庆理工大学学报

CSTPCD北大核心
影响因子:0.567
ISSN:1674-8425
参考文献量13
段落导航相关论文