基于改进的深度强化学习船舶航向控制方法研究

张楠¹

扫码查看

作者信息

1. 内蒙古大学
折叠

摘要

航向控制方法作为水面船舶航行控制的重要研究领域，是保证其远洋航行质量的重要依托，一直以来都是吸引着船舶领域内研究者们的关注。大多现存的航向控制方法多针对预设固定路径跟踪任务展开方法研究，当任务目标路径发生变化时，相关控制器参数就不能够符合预期目标，跟踪性能即不能得到稳定保证。21世纪以来，AI技术得到迅速的发展，其中深度强化学习算法最为热门，吸引了越来越多的关注与研究，学者们开始将其投入到运输业中路径跟踪的航向控制研究中。对此，本文以水面船舶路径跟踪的航向控制问题为切入点，将深度强化学习算法与导引算法相结合，构建了一种基于深度强化学习算法的船舶航向控制独特方法。以提高自主航行系统的性能和稳定性，以及船舶的航向控制能力。主要研究内容如下：第一，对深度强化学习航向控制算法进行了优化，提出基于概率和样本数据重要度二者融合改进经验回放的方法。分析深度强化学习的工作原理，针对标准深度强化学习算法中经验回放样本多样性差、利用效率低等问题，设计一个基于概率和样本重要度二者融合改进经验回放的深度强化学习算法(ImprovedDeepDeterministicPolicyGradient，IDDPG)框架。使其能够以全新的样本保留方法与采样方法进行算法自学习，从而提高算法性能，用于后面学习和优化船舶的航向控制策略。旨在通过训练模型，让受控船舶智能体能够在不同环境条件下积累经验，逐步提升船舶在复杂路径中的航行跟踪控制性能。并通过典型案例环境验证所提出改进的深度强化学习算法的控制效果与收敛性能方面取得了显著的改善。第二，基于MMG分离式船模方法，建立控制对象船舶运动数学模型并分析其操纵响应特性，为后续航向控制奠定了控制框架基础。通过建立船舶运动参考坐标系，并在此基础上建立船舶六自由度的运动学模型和动力学模型，并且根据研究目标将模型简化为三自由度模型，仅考虑艏摇、纵荡和横荡方向，并在此基础上分析其操纵响应运动模型，更好表征船舶航向响应情况。并通过典型的船舶回转操纵实验，验证上述建立的船舶数学模型与动态响应特性。第三，结合视线导引算法与改进之后的深度强化学习控制算法设计航向控制器，并通过MATLAB环境进行路径跟踪航向控制实验仿真。首先分析后续研究所使用的视线导引算法的工作原理并讨论确定其具体形式。再对航向控制问题进行马尔科夫过程建模设计，确定其状态空间、动作空间与奖励函数。为了验证控制效果，将改进前后的深度强化学习航向控制方法与传统PID航向控制方法进行仿真实验对比，仿真结果表明，改进后的深度强化学习航向控制方法在路径跟踪航向控制效果上响应特性更快、更稳定也更准确。综上所述，本文通过引入改进的深度强化学习算法，成功构建了一种新颖的船舶航向控制系统。该系统在提高航向控制性能、适应不同路径环境等方面都取得了令人满意的成果，可以为未来船舶自主航行技术的研究发展提供参考的思路和借鉴的方法。

关键词

水面船舶/航向控制/路径跟踪/深度强化学习

引用本文复制引用

授予学位

硕士

学科专业

土木水利

导师

李冬琴

学位年度

2024

学位授予单位

江苏科技大学

语种

中文

中图分类号

段落导航