基于深度强化学习的认知无线供能网络动态频谱接入策略研究

匡新宇¹

扫码查看

作者信息

1. 浙江工业大学
折叠

摘要

随着无线通信系统的发展，频谱的需求增加但可用性不足。传统频谱分配方式会出现频谱空洞，导致频谱利用率低。认知无线电技术允许非授权用户利用频谱空洞，提高频谱利用率，但会增加认知节点能耗。能量捕获技术可以解决认知节点能量受限问题，从环境，如射频（Radio-frequency，RF）能源中提取能量。并且当前无线通信网络呈现复杂化趋势，需要更好的工具来进行优化。本文结合了认知无线电技术，能量捕获技术和深度强化学习，研究了认知无线供能网络中的动态频谱接入策略，并通过深度强化学习优化了网络性能。本文的主要工作与创新如下所述： 1.本文研究了主用户（Primaryuser，PU）始终占用授权频谱情况下，具有多次级收发器对的认知无线供能网络中的长期次级吞吐量最大化问题。本文通过优化次级发射机（Secondarytransmitter，ST）的工作模式、所选信道和发射功率来最大化长期次级吞吐量。所提出的问题是一个混合整数非线性规划（Mixed-integernonlinearprogramming，MINLP）问题。为了解决这个MINLP问题，本文提出了两种基于深度确定性策略梯度（Deepdeterministicpolicygradient，DDPG）的方法：集中式DDPG（CentralizedDDPG，C-DDPG）和集中式多智能体DDPG（Centralizedmulti-agentDDPG，CMA-DDPG）。C-DDPG的吞吐量性能令人满意，但计算复杂度较高。CMA-DDPG采用基于干扰的聚类算法来缩小状态空间和动作空间。通过分析得出，CMA-DDPG的计算复杂度低于C-DDPG。数值结果表明，在该认知无线供能网络中，本文提出的方法在吞吐量和中断概率方面都优于对比方法，并在次级网络中断概率方面验证了基于干扰的聚类算法的聚类性能。此外，当次级收发器对数量较多时，CMA-DDPG比C-DDPG具有更好的吞吐量性能和更快的收敛速度。 2.本文研究了PU间断占用授权频谱的情况，并提出了一种基于探测辅助频谱感知（Probing-aidedspectrumsensing，PaSS）模型的混合接入策略。其主要思想是，ST根据信道的置信度向量、能量状态和数据缓冲状态，决定是否选择一个信道进行感测。如果ST决定不感知，则以能量捕获模式（Energyharvestingmode，EHM）或衬垫传输模式（Underlaytransmissionmode，UTM）运行。否则，当所选信道被感测为忙时，ST将在EHM或UTM模式下运行。当所选信道被感知为空闲时，ST会进一步探测信道，以获取信道的真实状态。如果探测到信道繁忙，ST将以EHM或UTM运行。否则，ST将以填充传输模式（Overlaytransmissionmode，OTM）运行。通过研究最优混合接入策略，本文建立了一个受能量因果关系、最大发射功率和数据缓冲容量约束的平均丢包量（Averagenumberofpacketloss，ANPL）最小化问题。本文发现，该问题是一个整数规划问题，传统优化技术难以解决。借助深度强化学习技术，本文提出了一种调整后的双深度Q网络（AdjusteddoubledeepQ-network，ADDQN）算法，通过压缩动作空间和修改奖励函数来找到最优混合接入策略。与双深度Q网络（DoubledeepQ-network，DDQN）算法相比，ADDQN算法的ANPL性能和收敛速度更好。数值结果表明，在大多数情况下，所提出的ADDQN-PaSS策略的ANPL性能优于对比策略，同时也验证了所提出的PaSS模型和ADDQN算法的优越性。此外，随着数据缓冲区容量的增加，ANPL有先减小后保持不变的趋势。

关键词

认知无线供能网络/深度强化学习/能量捕获/动态频谱/接入策略

引用本文复制引用

授予学位

硕士

学科专业

计算机科学与技术

导师

刘晓莹/郑可琛

学位年度

2024

学位授予单位

浙江工业大学

语种

中文

中图分类号

段落导航