基于深度强化学习的动态频谱接入方法研究

马泽龙¹

扫码查看

作者信息

1. 宁波大学
折叠

摘要

随着无线通信技术的快速发展，无线终端数量爆发式增长，频谱资源日趋短缺。为了缓解频谱压力，认知无线电作为有效解决方案被提出。在对授权用户不造成干扰的前提下，认知无线电利用频谱接入技术，允许次级用户使用空闲的授权频段，实现频谱资源的动态分配，从而提高频谱资源的利用率。但在用户动态接入非授权频段时，如果一直保持唤醒状态等待信道空闲，其功耗会增加，并且由于认知无线电网络的开放性，用户极易受到干扰导致吞吐量降低。为了解决上述问题，本文围绕动态频谱接入技术中能耗与时延平衡以及抗干扰进行研究，主要工作和创新点如下： 1）非连续接收机制是5G/B5G认知无线电部署在非授权频段的重要节能机制，用户在一段时间内没有接收到基站数据就会进入休眠状态，在休眠状态中周期唤醒，来接入信道监测是否有数据需要接收。现有的非连续接收方法虽然可以提高节能效率，但是会增加数据包的传输时延。针对这一问题，提出了一种基于深度强化学习的自适应非连续接收方法。首先，设计基站传输的数据包，该数据包中携带重传时间戳信息；接着，将非连续接收过程建模为马尔科夫决策过程；然后，设计基于非连续接收机制的状态集合、动作空间和奖励；最后，通过深度强化学习获得非连续接收决策策略，该策略能够根据非授权信道的忙闲状态自适应地调整唤醒窗口长度。仿真结果表明与传统方法相比，所提方法在保证时延最低的前提下，节能效率也取得了约2~3%的提升。 2）超密集组网技术是5G的核心技术之一，该技术通过增加基站的数量来实现高密度的覆盖。由于基站数量众多且无线电网络极易受到干扰，因此用户需要频繁地测量基站信息，选择干扰小的基站接入。此过程需要消耗大量的能量，并且频繁地切换基站会导致信令开销增大从而影响用户业务的连续性。针对以上问题，提出了一种干扰环境下基于A3C算法的信道接入方法。首先，设计存在多个干扰机环境下信道接入策略的状态集合、动作空间和奖励；然后，使用多个用户并行地与环境交互；最后，通过基于环境反馈的奖励，更新接入策略，使得用户无需测量信息就可以选择合适的基站接入。仿真结果表明与传统方法相比，所提方法在超密集组网的环境下将次级用户的吞吐量提升了5%。

关键词

认知无线电/深度强化学习/动态频谱接入/非连续接收

引用本文复制引用

授予学位

硕士

学科专业

信息与通信工程

导师

金明

学位年度

2023

学位授予单位

宁波大学

语种

中文

中图分类号

段落导航