摘要
车辆路径问题是物流运输优化中一个至关重要的问题,它的目标是在满足客户需求的情况下,规划出一条最低成本的车辆路径。现有的基于深度强化学习的解决有容量限制的车辆路径问题的方法本质上是处理同构车队,然而现实中车辆可能是异构的,这使得现有方法效率较低。因此,寻找高性能的算法来提高调度方案的执行效率,成为车辆路径问题中亟待解决的现实需求问题。本研究提出了一种基于注意力机制的深度强化学习算法来求解车辆路径问题,分别实现了带有容量限制的异构车辆、电动汽车路径成本最小化。本文的创新之处如下: (1)针对异构车辆路径问题,提出了基于注意力机制的深度强化学习方法,目的是最小化车队中车辆的最长行驶时间或总时间。异构车辆的主要特征是容量不同,为了满足异构约束,使用负责异构车辆的选择解码器和一个负责路线构建的节点选择解码器,所选车辆和节点都构成了该步骤的动作。同时采用蒙特卡洛算法进行训练,从而提高模型的求解性能。基于随机生成实例的实验结果表明,本文方法在解决异构车辆路径规划方面优于最先进的深度强化学习方法和大多数传统启发式方法,此外,扩展实验结果表明,该方法也能很好地求解CVRPLIB实例,性能令人满意。 (2)针对有容量限制的电动汽车路径问题,提出了端到端的深度强化学习框架,目标使车队的总行驶距离降至最小。同时,开发了一个包含指针网络和图嵌入层的注意力模型,来参数化解决电动汽车路径问题的随机策略。在仅考虑节点信息的框架中,加入图嵌入组件以及全局信息,以综合定义问题的图的局部和整体信息。然后使用奖励函数来评估智能体产生的解决方案,指导智能体进行相应的改进。研究表明,所提出的模型能够有效地解决当前现有方法无法解决的大规模电动汽车路径规划实例。 本文提出的深度强化学习方法与策略,结合了深度学习的感知能力和强化学习的决策能力的优势,可以有效解决有容量限制的车辆路径规划问题,同时对深度强化学习方法解决其它组合优化问题提供了有益的借鉴和参考。