一种多重优先经验回放的麻将游戏数据利用方法

A data utilization method of mahjong game with multidimensional priority experience replay

李淑琴 ¹李奕¹

扫码查看

作者信息

1. 北京信息科技大学计算机学院, 北京 100101;感知与计算智能联合实验室, 北京 100101
折叠

摘要

针对大众麻将AI训练时经验回放机制中样本均匀采样导致训练缓慢的问题,提出了一种多重优先经验回放算法,即从时序差分误差、局面复杂程度、动作即时奖励3个维度对经验样本进行优先级标记,每次采样时优先级高的样本高概率被抽取来更新神经网络.为了验证算法的有效性,构建了大众麻将自博弈平台进行相应的实验验证.实验结果表明:相比随机经验回放方法,新方法将麻将AI的训练速度提升了22.5％.

关键词

大众麻将/多重优先经验回放/时序差分误差/自博弈

引用本文复制引用

基金项目

北京信息科技大学科技项目(5212010937)

北京信息科技大学科技项目(KM201911232002)

出版年

2022

重庆理工大学学报

重庆理工大学

重庆理工大学学报

CSTPCD北大核心

影响因子：0.567

ISSN：1674-8425

被引量2

参考文献量5

段落导航