摘要
随着科技的发展,人类在面临各种突发事件时的救援能力得到了显著提升。在突发事件发生后,迫切需要将物资送达灾区,以最大限度地保障人民的生命和财产安全。在灾后应急响应的初期,应急物资需要及时送达灾区,但是由于灾区信息的不确定性,往往难以提供准确的物资需求量,导致灾区对应急物资的需求和应急物流的配送无法匹配。所以研究了带时间窗的有容量选址路径问题(Capacitated Location Routing Problem withTime Windows, CLRPTW)和带模糊需求的应急选址路径问题(Emergency Location Routing Problem with Fuzzy Demands, ELRPM/FD)。然而,由于 CLRPTW 和 ELRPM/FD问题的复杂性,传统的启发式优化算法无法找到优质解。因此,本文分别设计了基于强化学习的超启发算法求解这类问题。 首先,针对 CLRPTW 问题,提出一种基于决斗 DQN 的强化学习超启发算法(HH-DLDQN)来求解。该算法将决斗深度 Q 神经网络(Dueling Deep Q Network, Dueling DQN)算法引入超启发算法的高层选择策略中。Dueling DQN 通过改进 DQN 的神经网络结构以更精确地评估每个动作在特定状态下的相对优劣。同时,算法利用其学习能力对底层启发式算子的性能进行评估,并赋予其相应的奖惩值,结合奖惩值和改进的模拟退火接收机制引导底层算子在解空间中进行高效搜索,从而找到最佳的底层启发式算子,提升算法的泛化能力。此外,还设计一种高效的编码方式来提高算法的效率。实验结果表明,所提算法在求解该问题时具有良好效果。 然后,针对灾区需求不确定的情况,引入模糊集合理论中的三角模糊数来刻画需求量,建立更加易用的ELRPM/FD问题模型,并改进HH-DLDQN算法,提出基于决斗双DQN 的超启发算法(HH-DDDQN)进行求解。该算法将双深度 Q 神经网络(Double Deep Q Networks, Double DQN)算法的优点融入 HH-DLDQN。Double DQN 利用两个独立的 Q函数,能够同时进行选择和评估操作,在基本不增加运算量的情况下解决Q值过高的问题。设计同样的编码方式和模拟退火接收机制,以引导底层算子高效搜索。实验结果表明,改进后的算法对于所提模型具有良好的求解效果。 最后,通过修改标准算例进行仿真实验。结果表明,HH-DLDQN和HH-DDDQN对于所提模型均具有良好的求解效果。HH-DLDQN 根据算子的历史性能选择算子进行操作,并减少了对变异算子的选择,从而使算法在后期趋于稳定,提高了算法的效率。HH-DDDQN 结合了 Dueling DQN 和 Double DQN 的优点,共同引导算子高效搜索解空间,从而提高了算法的求解效率和优化精度。