基于SARSA强化学习的审判人力资源调度方法

Trial Human Resources Scheduling Method Based on SARSA Reinforcement Learning

吴鹏 ¹魏上清 ²董嘉鹏 ²潘理¹

扫码查看

作者信息

1. 上海交通大学电子信息与电气工程学院,上海 200240;信息内容分析技术国家工程实验室,上海 200240
2. 上海交通大学电子信息与电气工程学院,上海 200240
折叠

摘要

为对法官员额资源进行调度优化,平衡司法资源有限和现实司法需求之间的矛盾,该文建立审判人力资源调度优化模型,提出基于强化学习的审判团队调度优化策略.基于对审判人员调度问题和场景的分析,建立以案件的平均处理时间最小化为优化目标的审判人员调度优化数学模型以及相应的约束条件.在此基础上建立宏观的司法系统排队模型,定义审判人力资源调度马尔可夫决策过程,并基于状态/动作/奖励/状态/动作(Sate-Action-Reward-State-Action,SARSA)算法提出动态自适应的审判人员调度强化学习算法.该算法以案件的平均处理时间为奖励,通过贪婪行为策略选择调度策略,采用时序差分更新方法在与司法系统交互的过程中学习最优调度策略.相比于传统分案方法及其他基于规则的简单启发式算法,该算法能够提高案件审判效率、优化人力资源配置.

关键词

强化学习/资源调度/决策优化/贪婪策略/马尔可夫决策过程

引用本文复制引用

基金项目

出版年

2022

计算机技术与发展

陕西省计算机学会

计算机技术与发展

CSTPCD

影响因子：0.621

ISSN：1673-629X

被引量1

参考文献量8

段落导航