摘要
旅行商问题是一个著名的组合优化问题,它要求在给定的一组城市和它们之间的距离矩阵下,找到一条最短路径,使得每个城市都被访问一次,并最终回到出发城市。旅行商问题已经成为现实世界中许多领域的关键问题,但由于求解旅行商问题的计算复杂度非常高,因此很难找到一个快速且准确的解决方案。近年来,深度学习和强化学习技术的兴起,为解决旅行商问题提供了新的思路。然而现有的基于深度强化学习的方法在求解旅行商问题时,仍存在模型臃肿、时间复杂度高、推理时间长、泛化能力弱等一种或多种问题。针对上述问题,本文提出如下两个模型: 首先,本文提出了一个基于混合注意力机制的深度强化学习模型(Deep Reinforcement Learning Model based on Hybrid Attention Mechanism,HAM-DRL)。HAM-DRL模型采用求解旅行商问题时通用的编码器-解码器框架。在编码的过程中,使用混合注意力机制对输入的城市序列进行特征提取,将编码过程时间复杂度降至线性的同时将编码器的层数降至单层。模型使用强化学习的方法在合成数据集上进行训练,摆脱了对真值标签的依赖,解决了标签获取昂贵且耗时的问题。 其次,本文提出了一个基于知识蒸馏的轻量化深度强化学习模型(Lightweight Deep Reinforcement Learning Model based on Knowledge Distillation,KDRL)。将经过预训练的HAM-DRL模型作为教师模型,学生模型KDRL与教师模型共享同一架构,通过降低隐藏层维度的方式减少网络参数。模型的损失函数由蒸馏损失和学生模型损失两部分构成。蒸馏损失在每个解码时间步衡量两个模型概率分布之间的差异,学生模型损失使用强化学习进行计算,并通过加权和的方式组合在一起,降低了模型的参数量,加快了模型的收敛速度。