基于深度强化学习的轻量化组合优化方法研究

邱紫鑫¹

扫码查看

作者信息

1. 郑州大学
折叠

摘要

旅行商问题是一个著名的组合优化问题，它要求在给定的一组城市和它们之间的距离矩阵下，找到一条最短路径，使得每个城市都被访问一次，并最终回到出发城市。旅行商问题已经成为现实世界中许多领域的关键问题，但由于求解旅行商问题的计算复杂度非常高，因此很难找到一个快速且准确的解决方案。近年来，深度学习和强化学习技术的兴起，为解决旅行商问题提供了新的思路。然而现有的基于深度强化学习的方法在求解旅行商问题时，仍存在模型臃肿、时间复杂度高、推理时间长、泛化能力弱等一种或多种问题。针对上述问题，本文提出如下两个模型: 首先，本文提出了一个基于混合注意力机制的深度强化学习模型(Deep Reinforcement Learning Model based on Hybrid Attention Mechanism,HAM-DRL)。HAM-DRL模型采用求解旅行商问题时通用的编码器-解码器框架。在编码的过程中，使用混合注意力机制对输入的城市序列进行特征提取，将编码过程时间复杂度降至线性的同时将编码器的层数降至单层。模型使用强化学习的方法在合成数据集上进行训练，摆脱了对真值标签的依赖，解决了标签获取昂贵且耗时的问题。其次，本文提出了一个基于知识蒸馏的轻量化深度强化学习模型(Lightweight Deep Reinforcement Learning Model based on Knowledge Distillation,KDRL)。将经过预训练的HAM-DRL模型作为教师模型，学生模型KDRL与教师模型共享同一架构，通过降低隐藏层维度的方式减少网络参数。模型的损失函数由蒸馏损失和学生模型损失两部分构成。蒸馏损失在每个解码时间步衡量两个模型概率分布之间的差异，学生模型损失使用强化学习进行计算，并通过加权和的方式组合在一起，降低了模型的参数量，加快了模型的收敛速度。

关键词

旅行商问题/组合优化/深度强化学习/混合注意力机制/知识蒸馏

引用本文复制引用

授予学位

硕士

学科专业

计算机技术

导师

刘起东

学位年度

2023

学位授予单位

郑州大学

语种

中文

中图分类号

段落导航