首页|一种多重优先经验回放的麻将游戏数据利用方法

一种多重优先经验回放的麻将游戏数据利用方法

扫码查看
针对大众麻将AI训练时经验回放机制中样本均匀采样导致训练缓慢的问题,提出了一种多重优先经验回放算法,即从时序差分误差、局面复杂程度、动作即时奖励3个维度对经验样本进行优先级标记,每次采样时优先级高的样本高概率被抽取来更新神经网络.为了验证算法的有效性,构建了大众麻将自博弈平台进行相应的实验验证.实验结果表明:相比随机经验回放方法,新方法将麻将AI的训练速度提升了22.5%.
A data utilization method of mahjong game with multidimensional priority experience replay

李淑琴、李奕

展开 >

北京信息科技大学 计算机学院, 北京 100101

感知与计算智能联合实验室, 北京 100101

大众麻将 多重优先经验回放 时序差分误差 自博弈

北京信息科技大学科技项目北京信息科技大学科技项目

5212010937KM201911232002

2022

重庆理工大学学报
重庆理工大学

重庆理工大学学报

CSTPCD北大核心
影响因子:0.567
ISSN:1674-8425
年,卷(期):2022.36(12)
  • 2
  • 5