计算机科学2021,Vol.48Issue(4) :274-281.DOI:10.11896/jsjkx.200300028

基于近端策略优化的RFID室内定位算法

RFID Indoor Positioning Algorithm Based on Proximal Policy Optimization

李丽 郑嘉利 罗文聪 全艺璇
计算机科学2021,Vol.48Issue(4) :274-281.DOI:10.11896/jsjkx.200300028

基于近端策略优化的RFID室内定位算法

RFID Indoor Positioning Algorithm Based on Proximal Policy Optimization

李丽 1郑嘉利 2罗文聪 全艺璇
扫码查看

作者信息

  • 1. 广西大学计算机与电子信息学院 南宁 530004
  • 2. 广西多媒体通信与网络技术重点实验室 南宁 530004
  • 折叠

摘要

针对在动态射频识别(Radio Frequency Identification,RFID)室内定位环境中,传统的室内定位模型会随着定位目标数量的增加而导致定位误差增大、计算复杂度上升的问题,文中提出了一种基于近端策略优化(Proximal Policy Optimization,PPO)的RFID室内定位算法.该算法将室内定位过程看作马尔可夫决策过程,首先将动作评价与随机动作相结合,然后进一步最大化动作回报值,最后选择最优坐标值.其同时引入剪切概率比,首先将动作限制在一定范围内,交替使用采样后与采样前的新旧动作,然后使用随机梯度对多个时期的动作策略进行小批量更新,并使用评价网络对动作进行评估,最后通过训练得到PPO定位模型.该算法在有效减少定位误差、提高定位效率的同时,具备更快的收敛速度,特别是在处理大量定位目标时,可大大降低计算复杂度.实验结果表明,本文提出的算法与其他的RFID室内定位算法(如Twin Delayed Deep Deterministic Policy Gradient(TD3),Deep Deterministic Policy Gradient(DDPG),Actor Critic using Kronecker-Factored Trust Region(ACK-TR))相比,定位平均误差分别下降了36.361%,30.696%,28.167%,定位稳定性分别提高了46.691%,34.926%,16.911%,计算复杂度分别降低了84.782%7,70.213%,63.158%.

关键词

RFID/室内定位/深度强化学习/剪切概率比

引用本文复制引用

基金项目

出版年

2021
计算机科学
重庆西南信息有限公司(原科技部西南信息中心)

计算机科学

CSTPCDCSCD北大核心
影响因子:0.944
ISSN:1002-137X
被引量3
参考文献量1
段落导航相关论文