首页|一种德州扑克博弈的决策模型

一种德州扑克博弈的决策模型

扫码查看
为解决传统方法难以处理德州扑克巨大的状态空间,以及强化学习中人工神经网络收敛性差等问题,以强化学习框架为基础,采用AC算法,引入专家先验知识预训练网络参数,以加速收敛.然后通过自博弈的方式让模型开始自我对战,不断更新模型中的神经网络参数,以提高模型的决策准确度.实验数据表明,模型的损失函数值在先验知识的影响下,收敛性得到了提升.在与其它版本智能体的对弈中,最终版本模型每局平均收益都在1个大盲注筹码以上.因此,应用该决策模型可构建具有一定实力的德州扑克智能体.
A Decision Model of Texas Hold'em Poker

李轶、彭丽蓉、杜松、伍帆、王森

展开 >

重庆理工大学两江人工智能学院,重庆401135

重庆工业职业技术学院大数据与人工智能学院,重庆401120

非完备信息机器博弈 强化学习 德州扑克 决策模型

国家自然科学基金青年科学基金重庆理工大学研究生创新基金

61502065YCX2016238

2021

软件导刊
湖北省信息学会

软件导刊

影响因子:0.524
ISSN:1672-7800
年,卷(期):2021.20(5)
  • 1
  • 3