基于人工智能的星际争霸II智能体的研究与设计

温叶廷¹

扫码查看

作者信息

1. 西南交通大学
折叠

摘要

即时战略游戏星际争霸，由于观测空间大，动作空间多，局部观测，长时间决策等特点，已经被证明是一个对人工智能技术具有挑战性的环境。不过，目前最先进的解决方案包含许多手工设计的模块，几乎不能因对手所采取策略不同而做出适当的调整。虽然在SC2LE平台刚发布时就测试过直接使用强化学习构建智能体，但却不能战胜最简单的内置AI，主要原因是直接在庞大的原子动作中学习是困难的，并且对于星际争霸的每一个种族都有自身独特的科技树知识，这就使得强化学习在星际争霸中几乎不起作用。本文提出一种基于回放数据的宏观动作预测的深度强化学习算法的方法，主要工作和研究成果如下：一、本文使用人族构建智能体WBot。首先使用层次化结构构造智能体，将庞大的原子动作简化成少量的宏观动作，并且给部分兵种微观操作。二、为了解决学习科技树硬规则的难题，构建游戏回放数据集训练基础模型，通过深度学习从数据集中直接学习星际争霸中的宏观管理决策。采用的方法是从SC2LE平台发布的160多万对局中通过预处理筛选出高质量的对局，使用pysc2解析游戏回放，提取基础特征和统计特征构造特征数据集；然后使用LSTM网络进行训练，确定特征组合、损失函数、网络层数、时间窗等，最终在对抗人族、虫族和神族在宏观动作预测上，分别取得了80.72%、78.25%和79.72%的准确率。三、使用强化学习算法PPO，通过对比三元组、系统内置得分score、自定义XGBoost三种奖励值的设定，确定最佳奖励值设定方式，进一步训练智能体。最后，将智能体WBot提交到用于星际争霸Ⅱ智能体竞赛平台StarCraftⅡAILadder，测试其效果并得到排名，直到天梯赛第8赛季截止，在45个参赛的智能体中取得了第10名的成绩。本文首先介绍了星际争霸II智能体的研究意义以及研究现状；然后详细介绍了智能体的基本结构，通过使用层次结构将动作空间从庞大的原子操作中脱离出来；接下来介绍了如何基于SC2LE平台构建游戏特征数据集并通过该数据集构造基础网络来预测人族对抗各种族的宏观动作预测，从而解决强化学习很难学习科技树硬规则的难题；之后使用强化学习算法PPO进一步优化网络，并将算法集成到智能体并将智能体提交到竞赛平台上进行测试；最后，总结了本文的工作及未来的研究展望。

关键词

人工智能/即时战略游戏/深度学习/强化学习

引用本文复制引用

授予学位

硕士

学科专业

信息与通信工程

导师

黄海于

学位年度

2020

学位授予单位

西南交通大学

语种

中文

中图分类号

段落导航