基于强化学习的数字冰壶策略研究

赵海阔¹

扫码查看

作者信息

1. 哈尔滨工业大学
折叠

摘要

随2022年北京冬奥会日渐临近，我国提出的“三亿人上冰雪”目标逐步实现。冰壶作为冰上主要运动项目之一，不仅考验选手的投掷水平，更对选手投掷策略有较高要求。因在关键比赛关键壶的策略运用能力不足，我国冰壶队与世界强队有一定差距。本文所研究的冰壶策略可供运动员参考，提高技战术水平，因此冰壶策略的研究具有一定现实意义。本文在明确研究意义和项目背景基础上对国内外冰壶策略的研究现状进行了调研，通过理论分析、仿真训练以及实验对比，最终得到具有较强性能的数字冰壶策略。本文设计数字冰壶策略分为两个阶段进行，首先离线训练冰壶策略价值网络，然后结合训练好的策略价值网络进行在线蒙特卡洛树搜索算法改进。在没有冰壶策略数据集以及冰壶专业指导的情况下，为得到冰壶策略，本文基于强化学习方法使用蒙特卡洛树搜索自我对弈生成数据来训练策略价值网络。在数字冰壶仿真模型下，训练时将策略价值网络与蒙特卡洛树搜索进行结合，二者相互指导，相互配合，经多次自我对弈并训练更新后，得到具有一定性能的策略价值网络。考虑到离线训练的策略价值网络无法进行长远的策略思考以及应对多变的的对弈局势无法做到策略上的随机应变，本文结合训练好的策略价值网络引入在线蒙特卡洛树搜索。因冰壶在大范围连续空间内进行运动，而策略价值网络的输出为离散化动作，在本文中引入正态分布将离散动作空间转为连续动作空间。此外，因真实的冰壶运动具有执行不确定性，为贴近真实冰壶运动，在数字冰壶仿真环境下加入随机因数使冰壶期望落点与实际落点存在差异。针对执行不确定性，本文在在线搜索时引入核回归及核密度来重新评价某一动作输出的价值，在评价过程中考虑可能的实际落点对期望落点的影响，以减弱执行不确定性影响，提升策略性能。最后将离线训练的策略价值网络与改进的在线蒙特卡洛树搜索算法进行结合，得到本文最终冰壶策略（PVN-MCTS）。为验证该方法的有效性，本文进行了多组对比实验，对弈结果显示本文所使用方法具有较强的策略性能。

关键词

冰壶策略/强化学习/策略价值网络/蒙特卡洛树搜索

引用本文复制引用

授予学位

硕士

学科专业

控制工程

导师

刘劼

学位年度

2021

学位授予单位

哈尔滨工业大学

语种

中文

中图分类号

段落导航