首页|基于深度强化学习的轻量化组合优化方法研究

基于深度强化学习的轻量化组合优化方法研究

邱紫鑫

基于深度强化学习的轻量化组合优化方法研究

邱紫鑫1
扫码查看

作者信息

  • 1. 郑州大学
  • 折叠

摘要

旅行商问题是一个著名的组合优化问题,它要求在给定的一组城市和它们之间的距离矩阵下,找到一条最短路径,使得每个城市都被访问一次,并最终回到出发城市。旅行商问题已经成为现实世界中许多领域的关键问题,但由于求解旅行商问题的计算复杂度非常高,因此很难找到一个快速且准确的解决方案。近年来,深度学习和强化学习技术的兴起,为解决旅行商问题提供了新的思路。然而现有的基于深度强化学习的方法在求解旅行商问题时,仍存在模型臃肿、时间复杂度高、推理时间长、泛化能力弱等一种或多种问题。针对上述问题,本文提出如下两个模型: 首先,本文提出了一个基于混合注意力机制的深度强化学习模型(Deep Reinforcement Learning Model based on Hybrid Attention Mechanism,HAM-DRL)。HAM-DRL模型采用求解旅行商问题时通用的编码器-解码器框架。在编码的过程中,使用混合注意力机制对输入的城市序列进行特征提取,将编码过程时间复杂度降至线性的同时将编码器的层数降至单层。模型使用强化学习的方法在合成数据集上进行训练,摆脱了对真值标签的依赖,解决了标签获取昂贵且耗时的问题。 其次,本文提出了一个基于知识蒸馏的轻量化深度强化学习模型(Lightweight Deep Reinforcement Learning Model based on Knowledge Distillation,KDRL)。将经过预训练的HAM-DRL模型作为教师模型,学生模型KDRL与教师模型共享同一架构,通过降低隐藏层维度的方式减少网络参数。模型的损失函数由蒸馏损失和学生模型损失两部分构成。蒸馏损失在每个解码时间步衡量两个模型概率分布之间的差异,学生模型损失使用强化学习进行计算,并通过加权和的方式组合在一起,降低了模型的参数量,加快了模型的收敛速度。

关键词

旅行商问题/组合优化/深度强化学习/混合注意力机制/知识蒸馏

引用本文复制引用

授予学位

硕士

学科专业

计算机技术

导师

刘起东

学位年度

2023

学位授予单位

郑州大学

语种

中文

中图分类号

TP
段落导航相关论文