首页|基于深度强化学习的机器人运动控制算法研究

基于深度强化学习的机器人运动控制算法研究

娄茹珍

基于深度强化学习的机器人运动控制算法研究

娄茹珍1
扫码查看

作者信息

  • 1. 哈尔滨工程大学
  • 折叠

摘要

随着人工智能与机器人技术的不断发展,机器人的应用领域也在不断的拓宽。保障机器人在执行任务时能够进行稳定安全的运动控制,一直是机器人技术研究的重点。机器人运动控制是确保机器人高效执行任务的坚实基础,也是实现机器人操作灵活和智能化的关键所在。随着研究的不断深入,基于深度强化学习的机器人运动控制取得了显著的成果。在实际应用中,深度强化学习还存在训练初期控制策略不稳定、学习效率较低、训练时间长等问题,这些问题制约了深度强化学习在机器人运动控制方面的应用。本文基于深度强化学习算法对机器人运动控制进行研究,通过改进深度强化学习算法来提升机器人运动控制的稳定性和适应性。本文的主要工作如下: 基于深度确定性策略梯度算法进行机器人运动控制的研究,提出基于自适应经验过滤的深度确定性策略梯度算法。针对深度确定性策略梯度算法存在训练时间较长、学习效率较低的问题,对经验回放机制进行改进,采用自适应经验过滤策略,对经验缓冲区中的经验数据进行充分的利用。设计经验数据优先级的计算方式,并利用经验过滤器将经验数据分发到不同的经验缓冲区。使用经验选择器提取经验缓冲区中的经验数据用于模型的训练,以提升经验数据的利用效率,并且增强机器人的探索能力。实验结果表明,与主流的深度强化学习算法相比,基于自适应经验过滤的深度确定性策略梯度算法能够在机器人运动仿真环境中有效加快机器人的学习效率和训练速度,实现更加稳定的运动控制。 针对近端策略优化算法在训练初期的控制策略不稳定、训练时间较长的问题,提出基于注意力机制结构分解的近端策略优化算法。由于不同关节在机器人的运动控制中的影响权重不同,在策略网络中引入注意力机制对机器人的结构进行分解。通过关注机器人重要的关节结构,达到更加高效和准确的运动控制。根据机器人动作与状态空间的复杂程度,将策略网络设计为多个子网络结构,每个子网络负责处理分解后的关节状态动作信息。对策略网络和价值网络的网络初始化方式进行设计,并采用自适应经验过滤策略代替传统的经验回放机制,以提升机器人训练过程中的稳定性。与基线算法进行对比,实验结果表明该算法可以在一定程度上增强模型的泛化能力,提升机器人运动控制的稳定性和收敛速度。

关键词

机器人/运动控制/经验回放/注意力机制/深度强化学习

引用本文复制引用

授予学位

硕士

学科专业

计算机技术

导师

高伟;金枫

学位年度

2023

学位授予单位

哈尔滨工程大学

语种

中文

中图分类号

TP
段落导航相关论文