计算机科学2021,Vol.48Issue(4) :223-228.DOI:10.11896/jsjkx.200600177

基于平均神经网络参数的DQN算法

DQN Algorithm Based on Averaged Neural Network Parameters

黄志勇 吴昊霖 王壮 李辉
计算机科学2021,Vol.48Issue(4) :223-228.DOI:10.11896/jsjkx.200600177

基于平均神经网络参数的DQN算法

DQN Algorithm Based on Averaged Neural Network Parameters

黄志勇 1吴昊霖 1王壮 1李辉1
扫码查看

作者信息

  • 1. 四川大学计算机学院 成都 610065
  • 折叠

摘要

在深度强化学习领域,如何有效地探索环境是一个难题.深度Q网络(Deep Q-Network,DQN)使用ε-贪婪策略来探索环境,ε的大小和衰减需要人工进行调节,而调节不当会导致性能变差.这种探索策略不够高效,不能有效解决深度探索问题.针对DQN的ε-贪婪策略探索效率不够高的问题,提出一种基于平均神经网络参数的DQN算法(Averaged Parameters DQN,AP-DQN).该算法在回合开始时,将智能体之前学习到的多个在线值网络参数进行平均,得到一个扰动神经网络参数,然后通过扰动神经网络进行动作选择,从而提高智能体的探索效率.实验结果表明,AP-DQN算法在面对深度探索问题时的探索效率优于DQN,在5个Atari游戏环境中相比DQN获得了更高的平均每回合奖励,归一化后的得分相比DQN最多提升了112.50%,最少提升了19.07%.

关键词

深度强化学习/深度Q网络/神经网络参数/深度探索

引用本文复制引用

基金项目

出版年

2021
计算机科学
重庆西南信息有限公司(原科技部西南信息中心)

计算机科学

CSTPCDCSCD北大核心
影响因子:0.944
ISSN:1002-137X
被引量2
参考文献量4
段落导航相关论文