摘要
无人艇(USV)以其可模块化、智能化等诸多优势,可以自主在海洋环境中代替人类进行各种极富挑战性的工作。随着路径规划成为近年来研究热点,在动态性极强的海洋环境中,无人艇如何与其他主体和谐自处也逐渐成为关键问题。强化学习的提出为解决无人艇在未知环境下的路径规划问题提供了一种全新的思路。本文具体研究内容如下: 首先,通过对无人艇发展、基于仿生学的路径规划算法、基于强化学习的路径规划算法国内外研究现状进行分析,使得课题研究背景及意义更加清晰,对采用的算法收敛性及无人艇模型进行推导和证明。 其次,针对单无人艇的路径规划问题,提出一种改进Q学习算法。在狭窄水域复杂环境下,进行无人艇动作空间优化,引入势场思维对奖励函数进行改进,使其对路径规划具有启发和引导作用,使用IQL算法较CQL算法、ACO算法、GA规划生成的路径长度减少10.34%、1.12%、3.70%,解决了Q学习中探索和利用之间不平衡的问题。在栅格规模大小为20、30、40、50的环境下规划出的路径长度分别为25.212、42.414、59.828、69.242,均优于其他对比算法所规划得到的结果。同时,通过在障碍物密度不同的地图中进行实验,改进算法可以进一步验证其在复杂环境下的适应性。 最后,针对多无人艇路径搜索与规划的问题,提出了与信息素相关的改进D3QN算法,使其在完成搜索任务之后,合理规划出最短路径。在实验中,在超参数相同的情况下,当使用改进后算法无人艇系统在大小为30*30、40*40的栅格地图上所规划出的路径长度为25.242、34.898,引入信息素机制的D3QN算法较改进前所规划出的路径长度减少了10.84%、5.60%。当无人艇数量分别为6、8、10时,改进D3QN算法分别在260、350、600左右开始收敛,其收敛次数均少于D3QN算法。随着无人艇数量增多,当传统算法无法进行收敛时,使用改进算法仍可以及时地可以找到目标,进一步验证所用算法的鲁棒性与优越性。