基于深度强化学习的机械臂动态避障与伺服

成潇威¹

扫码查看

作者信息

1. 浙江大学
折叠

摘要

机械臂与传送带目前是工业流水线中最常见的机械设备，机械臂可以实现短距离搬运、装配、喷漆等工作，传送带可以实现较长距离搬运，两者的配合可以取代大部分繁琐重复的工作，提升生产效率。结合视觉模块和机械臂的视觉伺服系统也逐渐开始出现在工业现场，由视觉模块获取的图像信息作为反馈，帮助机械臂实现更高精度的抓取工作。然而目前所使用的视觉伺服算法基本不具有规避障碍物的能力，尤其当某一传送带上的物体并非是抓取目标时，它将有可能成为机械臂工作空间中的动态障碍物，使得视觉伺服存在一定的安全隐患。为解决这一问题，本文在机械臂避障和伺服方面采用了深度强化学习技术，首先针对原始深度Q网络(DeepQNetwork,DQN)进行了改进;然后将该改进的算法应用于机械臂动态避障规划，实现了一种通用化的机械臂动态避障方法;进一步将该动态避障方法与机械臂手眼视觉伺服相结合，实现了具有动态避障功能的机械臂视觉伺服方法。本文的具体研究工作如下: (1)本文提出了一种DQN的改进算法——引导深度Q网络(GuideDeepQNetwork,GDQN)算法。GDQN算法通过预训练得到的引导网络帮助实际网络在训练中保持足够比例的优良样本，提升网络的训练效率，同时避免了网络陷入局部最优。GDQN算法中的引导网络可以与实际网络采用不同的输入、网络结构和奖励函数，这使得引导网络的设计变得非常灵活，训练也变得相对容易。 (2)面对机械臂在动态障碍物环境中的避障规划问题，提出了基于GDQN的笛卡尔空间和关节空间的控制方法，分别可训练神经网络根据当前机械臂关节状态信息、障碍物位置信息和目标位置信息，实现机械臂末端执行器位置的控制和机械臂关节角度的控制。在笛卡尔空间和关节空间的网络训练中均采用了异构状态和异构模型的引导网络，并且在关节空间中的网络训练还采用了异构奖励函数，验证了GDQN算法异构状态、模型、奖励的可行性。此外在关节空间的网络训练中还引入了双经验池策略，验证了GDQN算法与DQN其他优化方法相结合的可行性，扩展了GDQN算法未来的可能性。（3）面对机械臂的视觉伺服安全性问题，引入动态避障与视觉伺服相结合,通过GDQN算法训练神经网络根据当前机械臂关节信息、障碍物信息和手眼图像中的信息输出机械臂控制指令，实现动态障碍物规避和目标伺服。同时为提高视觉伺服精度，引入了以图像信息误差为控制输入的步长比例控制方案，使机械臂在靠近目标时具有更细微的动作。另外在该部分奖励函数设计中使用了阶段增量式奖励值计算方式，为往后强化学习算法应用中的奖励函数设计提供了新的思路。为了验证该方法有效性，在仿真与实际机械臂系统中均进行了实验，证明了该方法控制的机械臂具有动态避障与视觉伺服的能力。

关键词

机械臂/深度强化学习/动态避障/视觉伺服/GDQN算法

引用本文复制引用

授予学位

硕士

学科专业

控制科学与工程

导师

刘山

学位年度

2023

学位授予单位

浙江大学

语种

中文

中图分类号

段落导航