基于深度强化学习的移动机器人避障决策训练系统的研究与实现

朱峻珲¹

扫码查看

作者信息

1. 安徽农业大学
折叠

摘要

随着近些年机器人技术的飞速发展，移动机器人已经融入人们生活中的方方面面。移动机器人的避障被认为是实现自主导航和环境感知中的难点，传统的路径规划算法往往基于规则和传感器信息，针对简单的场景拥有高效、简单的优点，但在日益复杂的动态环境中，传统算法对环境的适应能力较差、规划能力不足的缺点便显现出来。近年来，深度强化学习算法正在快速发展，使用深度强化学习算法来解决移动机器人的避障问题展现出了巨大的潜力。因此本文使用深度强化学习算法，以移动机器人作为实验对象，研究移动机器人的动态避障问题，并设计了一个基于深度强化学习的移动机器人避障决策训练系统。本文的主要研究内容如下：以软演员-评论家算法(SoftActor-Critic,SAC)算法作为研究基础，针对SAC方法应用于移动机器人避障问题中的局限性，提出了改进的受约束的SAC算法(ConstrainedSoftActor-Critic,CSAC)，该算法设计了一种机器人动作空间上的约束和多维度的奖励函数并且引入了优先经验回放机制。通过在ROS操作系统与Gazebo仿真平台上进行相关仿真实验进行验证，改进算法在复杂障碍物环境避障任务中的总体成功率提升了20.9%，证明本文提出的改进算法在模型的训练过程中收敛速度更快、性能更高，并且能够显著提高移动机器人在动态环境下的避障成功率。基于上述研究，对基于深度强化学习的移动机器人避障决策训练系统进行可行性分析、总体需求设计和系统实现，系统是以Python语言、Pytorch框架、Pyqt框架等技术开发的桌面应用程序。该系统共包括地图管理模块、模型训练模块、结果管理模块和模型测试模块四个模块，方便用户对移动机器人的避障模型的训练和测试。最后对该系统进行了功能测试和非功能测试，测试结果表明系统能够稳定运行并满足用户训练移动机器人的避障策略模型的需求。

关键词

移动机器人/避障决策/训练系统/深度强化学习

引用本文复制引用

授予学位

硕士

学科专业

软件工程

导师

华春生

学位年度

2024

学位授予单位

辽宁大学

语种

中文

中图分类号

段落导航