崔新悦、阳周明、赵彦东、杨霄、范玲瑜
北方自动控制技术研究所,太原 030006
深度强化学习 软行动者-评论家算法 坦克速度控制 采样策略
2022
10.3969/j.issn.1002-0640.2022.04.021