基于深度强化学习的CR-NOMA网络资源分配优化的研究

傅承恩¹

扫码查看

作者信息

1. 杭州电子科技大学
折叠

摘要

随着移动通信技术的快速发展，无线频谱资源日益紧张，频谱效率成为制约无线通信系统性能的关键因素之一。非正交多址接入（non-orthogonalmultipleaccess,NOMA）是一种利用非正交编码技术实现多用户共享同一个频带资源的无线通信技术，它可以有效地提高频谱效率和系统容量。认知无线电（cognitiveradio,CR）是一种能够感知并利用空闲频谱资源的智能无线通信技术，它可以有效地缓解频谱紧张问题。将CR与NOMA结合起来，构成认知无线电非正交多址接入（CR-NOMA）网络，是一种具有前瞻性和创新性的解决方案。本研究探讨了CR-NOMA网络这一前沿领域，并针对如何优化次网络用户（secondaryuser,SU）的资源分配问题进行了深入研究。首先，针对传统功率分配算法存在迭代求解复杂、难以学习历史数据规律等问题，本研究提出了利用深度强化学习（deepreinforcementlearning,DRL）实现CR-NOMA次网络功率分配的方案。具体地，本研究采用了深度Q网络和深度确定性策略梯度这两种不同的DRL算法进行了信道内功率分配，并针对两种算法分别设计了相应的处理机制：一是针对深度Q网络算法，由于它不能处理连续动作值，本研究将动作空间离散化，并采用ε-贪心策略进行探索；二是针对深度确定性策略梯度算法，由于它的神经网络输出无法保证有序性，这会影响连续干扰消除和用户公平性，本研究提出了一种神经网络输出处理机制，使得神经网络的输出经过该机制后能够得到按照SU信道增益排序的功率分配因子。其次，针对CR-NOMA网络中传统信道分配算法难以发现SU之间潜在关系和解空间过大等问题，本研究提出了一种基于注意力神经网络的DRL算法。该算法利用注意力机制(attentionmechanism,AM)自适应地学习每个信道与SU之间的契合度，并优先为契合度高的SU选择信道进行资源分配。相比于传统神经网络如卷积神经网络和循环神经网络，基于AM的神经网络在处理CR-NOMA信道分配问题上具有更高的并行性和全局性。此外，所提信道分配算法能够与所提功率分配算法进行联合优化。最后，在保证主网络用户（primaryuser,PU）服务质量的前提下，本研究从和信息速率、能量效率等方面与几种基准算法进行了对比实验，结果表明：本研究所提出的方案具有显著优势，并且具有较好的鲁棒性。

关键词

认知无线电/非正交多址接入/深度强化学习/注意力机制

引用本文复制引用

授予学位

硕士

学科专业

电子信息

导师

孙文胜/雷卓

学位年度

2023

学位授予单位

杭州电子科技大学

语种

中文

中图分类号

段落导航