吴鹏、魏上清、董嘉鹏、潘理
上海交通大学 电子信息与电气工程学院,上海 200240
信息内容分析技术国家工程实验室,上海 200240
强化学习 资源调度 决策优化 贪婪策略 马尔可夫决策过程
6200221919YF1424700
2022
10.3969/j.issn.1673-629X.2022.09.013