基于示教学习与深度强化学习的轴孔柔顺装配策略研究

阮松林¹

扫码查看

作者信息

1. 哈尔滨工业大学
折叠

摘要

轴孔装配是生产制造过程中的常见操作，具有自学能力的深度强化学习在解决小批量、多批次、非结构化轴孔装配任务时有巨大优势；但实际应用时，算法存在着迭代次数多、不合理探索占比大、收敛缓慢、零部件损坏多等问题。针对上述问题，本文基于示教学习，通过模仿人类的轴孔装配动作，提出了一种基于知识引导的深度强化学习轴孔柔顺装配策略，以减少机器人的不合理探索动作、提高深度强化学习算法的学习效率。在此基础上，本文通过融合力位混合控制，建立了一种面向轴孔装配任务且具有碰撞检测机制的深度强化学习训练环境；在该环境下机器人可以安全地与真实物理世界进行交互，避免了深度强化学习算法在训练初期所存在的零部件损坏问题。在基于示教学习的轴孔柔顺装配知识获取方法研究中，本文首先对示教学习的理论基础和轴孔装配流程进行了分析，根据人类装配的动作特点，确定了专家示教动作的编码方式，建立了基于高斯混合模型的轴孔柔顺装配知识库。随后，本文通过拖动示教获取人类的装配动作数据，并基于K-Means聚类和期望最大化算法求解轴孔柔顺装配知识库的参数，利用高斯混合回归对知识库进行回归处理。最后，本文设计了轴孔装配任务的控制系统，对知识库的有效性进行实验验证。实验结果表明，本文建立的轴孔柔顺装配知识库较好地模仿了人类专家的装配动作，能够用于指导后续深度强化学习算法的训练。在知识引导深度强化学习轴孔柔顺装配策略研究中，本文首先对深度强化学习的理论基础和轴孔装配专家知识进行了分析，在此基础上设计了知识引导深度强化学习模型的状态、动作空间和奖励函数，并根据模型特点选择了SAC深度强化学习算法求解轴孔柔顺装配策略。然后，本文对SAC算法的最大熵策略、柔性迭代原理和网络参数的更新方法进行了分析。最后设计了轴孔装配力位混合控制器，搭建了轴孔装配SAC深度强化学习网络，提出了基于知识引导的深度强化学习轴孔柔顺装配算法。最后，本文基于Panda机器人搭建了轴孔装配实验平台，对本文提出的知识引导深度强化学习轴孔柔顺装配算法进行了实验验证。实验结果表明本文提出的轴孔柔顺装配算法具有更高的学习效率，能够更快地收敛，有效减少了机器人在训练过程中的不合理探索动作和训练迭代次数；能够适应多种装配参数变化所产生的影响，具有较强的泛化能力。

关键词

轴孔装配/碰撞检测/示教学习/深度强化学习

引用本文复制引用

授予学位

硕士

学科专业

机械工程

导师

査富生

学位年度

2022

学位授予单位

哈尔滨工业大学

语种

中文

中图分类号

段落导航