一种合作Markov决策系统

A Cooperation Markov Decision Process System

雷莹 ¹许道云¹

扫码查看

作者信息

1. 贵州大学计算机科学与技术学院,贵州贵阳 550025
折叠

摘要

在机器学习中,强化学习是一个重要的研究领域.Markov决策过程(MDP)是强化学习的重要基础,在一般的Markov决策系统中,只考虑一个智能体的学习演化.但目前诸多问题中只考虑单个智能体的学习演化有一定的局限性,越来越多的应用中都涉及到多个智能体.进而引入一种带有两个智能体的联合Markov决策系统(CMDP),该系统适用于两个智能体之间合作决策的学习演化.智能体之间存在合作或博弈两种类型,文中重点研究合作类型的CMDP,在此类学习模型中,智能体交替执行行为,以社会价值作为求优准则,寻找最优策略对(π*0,π*1),共同完成目标任务.进一步给出了在联合Markov系统中寻找最优策略对的算法,其根本任务是寻找一个最优策略对(π*0,π*1),形成一个合作系统CMDP(π*0,π*1),且系统模型可以进一步扩充到多个智能体的联合决策系统.

关键词

强化学习/智能体/联合Markov决策过程/最优策略对/算法

引用本文复制引用

基金项目

国家自然科学基金(61762019)

国家自然科学基金(61862051)

出版年

2020

计算机技术与发展

陕西省计算机学会

计算机技术与发展

CSTPCD

影响因子：0.621

ISSN：1673-629X

被引量1

参考文献量4

段落导航