首页|一种针对坦克速度控制的深度强化学习算法

一种针对坦克速度控制的深度强化学习算法

扫码查看
坦克的无人化将成为作战装备的未来研究方向之一,针对坦克无人驾驶如何提高智能体训练速度是当前深度强化学习领域的一大瓶颈,提出一种最近经验回放的探索策略来对传统的软行动者-评论家算法(soft ac-tor-critic,SAC)进行改进,在训练阶段,赋予最近经验更大权重值,增大其采样概率,从而提高了训练的稳定性和收敛速度.在此基础上,基于应用环境以及作战任务设计奖励函数,提高算法的战场适用性.构建具体作战场景,对改进的算法与传统算法进行对比,结果表明,提出的算法在坦克速度控制上表现出更好的性能.
A Deep Reinforcement Learning Algorithm for Tank Speed Control

崔新悦、阳周明、赵彦东、杨霄、范玲瑜

展开 >

北方自动控制技术研究所,太原 030006

深度强化学习 软行动者-评论家算法 坦克速度控制 采样策略

2022

火力与指挥控制
火力与指挥控制研究会,火力与指挥控制专业情报网

火力与指挥控制

CSTPCDCSCD北大核心
影响因子:0.312
ISSN:1002-0640
年,卷(期):2022.47(4)
  • 2