基于预期收益策略与UCT的德州扑克算法

Research on Texas Hold'em Poker Algorithm Based on Expected Revenue and UCT Algorithm

王亚杰 ¹丁傲冬 ²祁冰枝 ²张云博²

扫码查看

作者信息

1. 沈阳航空航天大学工程训练中心,沈阳 110135
2. 沈阳航空航天大学计算机学院,沈阳 110135
折叠

摘要

针对虚拟遗憾最小化算法和传统上限置信区间算法等过于依赖领域知识或者需要大量对局记录训练的问题,以二人无限注德州扑克为研究对象,提出了基于预期收益策略的改进UCT算法.首先,使用蒙特卡罗方法即多次随机生成对方底牌和未知公共牌,然后比较双方牌型大小,计算己方胜率;其次,根据己方胜率和己方动作下注量计算预期收益并根据每个动作的预期收益,选择一个最大的动作作为下一步;最后,根据己方胜率与对手下注量评估对手胜率,从而将预期收益策略作为对手策略模型应用在传统UCT算法中.在开局筹码量为20000的情况下,改进后的UCT算法与基于预期收益策略实现的德州扑克程序THPZZ进行100局的对弈,平均每局赢得的筹码量为655,水平显著高于THPZZ.

关键词

UCT算法/蒙特卡罗/德州扑克/预期收益/对手胜率评估/非完备信息博弈

引用本文复制引用

基金项目

辽宁省兴辽英才计划项目(XLYC1906003)

出版年

2021

重庆理工大学学报

重庆理工大学

重庆理工大学学报

CSTPCD北大核心

影响因子：0.567

ISSN：1674-8425

被引量3

参考文献量4

段落导航