计算机技术与发展2020,Vol.30Issue(12) :8-14.DOI:10.3969/j.issn.1673-629X.2020.12.002

一种合作Markov决策系统

A Cooperation Markov Decision Process System

雷莹 许道云
计算机技术与发展2020,Vol.30Issue(12) :8-14.DOI:10.3969/j.issn.1673-629X.2020.12.002

一种合作Markov决策系统

A Cooperation Markov Decision Process System

雷莹 1许道云1
扫码查看

作者信息

  • 1. 贵州大学 计算机科学与技术学院,贵州 贵阳 550025
  • 折叠

摘要

在机器学习中,强化学习是一个重要的研究领域.Markov决策过程(MDP)是强化学习的重要基础,在一般的Markov决策系统中,只考虑一个智能体的学习演化.但目前诸多问题中只考虑单个智能体的学习演化有一定的局限性,越来越多的应用中都涉及到多个智能体.进而引入一种带有两个智能体的联合Markov决策系统(CMDP),该系统适用于两个智能体之间合作决策的学习演化.智能体之间存在合作或博弈两种类型,文中重点研究合作类型的CMDP,在此类学习模型中,智能体交替执行行为,以社会价值作为求优准则,寻找最优策略对(π*0,π*1),共同完成目标任务.进一步给出了在联合Markov系统中寻找最优策略对的算法,其根本任务是寻找一个最优策略对(π*0,π*1),形成一个合作系统CMDP(π*0,π*1),且系统模型可以进一步扩充到多个智能体的联合决策系统.

关键词

强化学习/智能体/联合Markov决策过程/最优策略对/算法

引用本文复制引用

基金项目

国家自然科学基金(61762019)

国家自然科学基金(61862051)

出版年

2020
计算机技术与发展
陕西省计算机学会

计算机技术与发展

CSTPCD
影响因子:0.621
ISSN:1673-629X
被引量1
参考文献量4
段落导航相关论文