摘要
针对大众麻将AI训练时经验回放机制中样本均匀采样导致训练缓慢的问题,提出了一种多重优先经验回放算法,即从时序差分误差、局面复杂程度、动作即时奖励3个维度对经验样本进行优先级标记,每次采样时优先级高的样本高概率被抽取来更新神经网络.为了验证算法的有效性,构建了大众麻将自博弈平台进行相应的实验验证.实验结果表明:相比随机经验回放方法,新方法将麻将AI的训练速度提升了22.5%.
基金项目
北京信息科技大学科技项目(5212010937)
北京信息科技大学科技项目(KM201911232002)