基于深度强化学习的无线通信网络资源优化算法研究

谭晓龙¹

扫码查看

作者信息

1. 山西大学
折叠

摘要

近年来，物联网(Internetofthings，IoT)设备的迅速普及给人们生活带来方便。作为物联网的信息采集单元，传感器节点设备大部分由电池供电，能量有限，可持续工作时间短。因此，如何减少节点能耗，延长无线传感器网络(WirelessSensorNetworks,WSN)工作时长是物联网需要解决的重要问题之一。另一方面，物联网接入设备爆炸式增长给有限的通信资源带来严峻的考验。作为5G的关键技术，设备到设备(DevicetoDevice，D2D)的通信技术可以无需基站的转发，两个用户之间直接进行通信，在不增加网络资源的条件下允许更多的设备接入网络；另外，非正交多址接入(Non-orthogonalMultiple-access,NOMA)技术通过在解码时采用连续干扰消除(SuccessiveInterferenceCancellation，SIC)能够在同一信道复用多个用户，提高了频谱利用率。因此，将D2D技术应用到蜂窝网络中，通过NOMA方式与蜂窝用户复用频谱，能减小网络负载、解决频谱资源紧张问题。但与此同时，D2D和小区用户复用频谱不可避免地会导致信号之间相互干扰，其中，D2D会导致跨层干扰，NOMA会导致同层干扰，合理有效的资源优化方法变得非常必要。针对上述两方面问题，本文研究包括： 1、研究无线传感器网络生命周期最大化的簇头与中继节点选择技术，使用深度强化学习方法，将簇头与中继节点选择过程建模为马尔可夫决策过程(MarkovDecisionProcess,MDP)，将网络中传感器节点的能量及信道信息作为环境状态，将簇头与中继节点选择作为动作，利用深度Q学习算法(DeepQ-network,DQN)建立以无线传感器网络生命周期最大化为目标的簇头与中继节点选择机制。仿真结果表明，和现有的算法相比，本文所提出的算法有效减少了网络的能耗，延长了无线传感器网络的生命周期。 2、在基于NOMA-D2D通信的蜂窝网络中，为解决用户间干扰，研究了基于单个时隙的信道分配与功率控制的联合优化问题。受谷歌AlphaGo启发，将异构网络中每个时隙的信道分配与功率控制过程建模为围棋的对局过程。首先，构建一个资源分配二维矩阵，相当于棋盘，它的每一行对应一个蜂窝用户或D2D用户，每一列对应一个信道。每一步的动作为在矩阵（棋盘）中选择一个位置，并为该位置对应的用户和信道分配一个功率值（在该位置上放置黑子或白子），这个过程一直会持续，直到所有用户都被安排好信道。基于此过程，提出了深度蒙特卡洛树搜索算法，该算法将蒙特卡洛树搜索与深度神经网络相结合。深度神经网络输出资源分配策略，引导树搜索过程的进行；蒙特卡洛树搜索方法根据深度神经网络的输出，模拟每一步的信道分配与功率控制，生成训练数据集来加强深度神经网络的学习。最后，仿真结果表明，基于深度蒙特卡洛树搜索的算法在信息传输速率和中断概率方面优于现有的优化算法。

关键词

物联网/NOMA/D2D/深度强化学习/蒙特卡洛树搜索

引用本文复制引用

授予学位

硕士

学科专业

电子与通信工程

导师

郭艳艳

学位年度

2022

学位授予单位

山西大学

语种

中文

中图分类号

段落导航