基于深度强化学习的无人艇航迹控制的研究

李浩东¹

扫码查看

作者信息

1. 江苏科技大学
折叠

摘要

水面无人艇(UnmannedSurfaceVessels，USV)是一种在水面可以依靠自主控制而完成一系列任务的水面运动装置，在维护海域安全，勘探海洋资源，环境检测等领域均有着广泛的应用前景。传统运动控制算法在水面无人艇上应用时，由于水面无人艇驱动方式较多，船型差异较大因此难以建立通用的模型。强化学习算法是一种不依赖问题模型的机器学习方法，当其运用于无人艇的自动控制时不需要对其进行精确的建模，没有难以调节的超参数，因此非常适合用于无人艇的运动控制。但是无人艇属于典型的欠驱动的系统，其动作的执行具有不可忽略的延迟，因此其状态的转移不严格符合马尔科夫性，带来了无人船强化学习智能体训练收敛过程不稳定的问题。同时强化学习稀疏奖励问题会导致强化学习算法训练收敛缓慢，当强化学习算法应用到无人船的运动控制时训练代价较大。本文对深度强化学习算法运用于无人船的航迹控制进行了研究，针对以上问题对传统的深度强化学习算法进行了改进，使其更加适用于欠驱动的无人船的运动控制，在Simulink中搭建了相应的仿真系统以验证改进的有效性。本文的主要研究和工作内容如下：首先针对无人船运动的大迟滞性带来的状态的转移不符合马尔可夫性的问题，对无人船智能体的状态空间进行重构。通过仿真实验验证了，使用状态量重构可以在不增加训练时间的前提下，使具有动作执行延迟的无人船也可以通过强化学习算法进行良好的控制。其次为解决强化学习中都会遇到的稀疏奖励问题，为奖励函数设置动态阈值。引入了基于奖励函数的好奇心机制。鼓励无人船智能体在训练初期没有形成有效的行动策略时多对陌生的环境进行探索。训练中后期则限制智能体的好奇心使其集中精力优化已有的策略。通过仿真实验证明基于奖励函数的好奇心机制可在加快无人船智能体训练的同时保证一定的循迹精度。最后还分析了当强化学习智能体所观测的状态空间较小且不完备的情况下，使用更多中间状态重构的方式可以让智能体可以观测到状态空间的高阶差分信息，使得观测的状态空间间接地变得完备。通过仿真实验证明当无人船智能体能观测到状态空间的二阶差分量时就已经能够很好地进行运动目标的跟踪控制。

关键词

强化学习/无人艇/航迹控制/目标追踪/动态奖励函数/状态重构

引用本文复制引用

授予学位

硕士

学科专业

信息与通信工程

导师

仲伟波

学位年度

2022

学位授予单位

江苏科技大学

语种

中文

中图分类号

段落导航