基于近端策略优化的RFID室内定位算法

RFID Indoor Positioning Algorithm Based on Proximal Policy Optimization

李丽 ¹郑嘉利 ²罗文聪全艺璇

扫码查看

作者信息

1. 广西大学计算机与电子信息学院南宁 530004
2. 广西多媒体通信与网络技术重点实验室南宁 530004
折叠

摘要

针对在动态射频识别(Radio Frequency Identification,RFID)室内定位环境中,传统的室内定位模型会随着定位目标数量的增加而导致定位误差增大、计算复杂度上升的问题,文中提出了一种基于近端策略优化(Proximal Policy Optimization,PPO)的RFID室内定位算法.该算法将室内定位过程看作马尔可夫决策过程,首先将动作评价与随机动作相结合,然后进一步最大化动作回报值,最后选择最优坐标值.其同时引入剪切概率比,首先将动作限制在一定范围内,交替使用采样后与采样前的新旧动作,然后使用随机梯度对多个时期的动作策略进行小批量更新,并使用评价网络对动作进行评估,最后通过训练得到PPO定位模型.该算法在有效减少定位误差、提高定位效率的同时,具备更快的收敛速度,特别是在处理大量定位目标时,可大大降低计算复杂度.实验结果表明,本文提出的算法与其他的RFID室内定位算法(如Twin Delayed Deep Deterministic Policy Gradient(TD3),Deep Deterministic Policy Gradient(DDPG),Actor Critic using Kronecker-Factored Trust Region(ACK-TR))相比,定位平均误差分别下降了36.361％,30.696％,28.167％,定位稳定性分别提高了46.691％,34.926％,16.911％,计算复杂度分别降低了84.782％7,70.213％,63.158％.

关键词

RFID/室内定位/深度强化学习/剪切概率比

引用本文复制引用

基金项目

出版年

2021

计算机科学

重庆西南信息有限公司（原科技部西南信息中心）

计算机科学

CSTPCDCSCD北大核心

影响因子：0.944

ISSN：1002-137X

被引量3

参考文献量1

段落导航