一种针对坦克速度控制的深度强化学习算法

扫码查看

原文链接

万方数据
维普

中文摘要：坦克的无人化将成为作战装备的未来研究方向之一,针对坦克无人驾驶如何提高智能体训练速度是当前深度强化学习领域的一大瓶颈,提出一种最近经验回放的探索策略来对传统的软行动者-评论家算法(soft ac-tor-critic,SAC)进行改进,在训练阶段,赋予最近经验更大权重值,增大其采样概率,从而提高了训练的稳定性和收敛速度.在此基础上,基于应用环境以及作战任务设计奖励函数,提高算法的战场适用性.构建具体作战场景,对改进的算法与传统算法进行对比,结果表明,提出的算法在坦克速度控制上表现出更好的性能.

外文标题：A Deep Reinforcement Learning Algorithm for Tank Speed Control

作者：

崔新悦、阳周明、赵彦东、杨霄、范玲瑜

展开 >

作者单位：

北方自动控制技术研究所,太原 030006

关键词：

深度强化学习软行动者-评论家算法坦克速度控制采样策略

出版年：

2022

DOI：

10.3969/j.issn.1002-0640.2022.04.021

火力与指挥控制

火力与指挥控制研究会,火力与指挥控制专业情报网

火力与指挥控制

CSTPCDCSCD北大核心

影响因子：0.312

ISSN：1002-0640

年,卷(期)：2022.47(4)

参考文献量2