首页|基于SARSA强化学习的审判人力资源调度方法

基于SARSA强化学习的审判人力资源调度方法

扫码查看
为对法官员额资源进行调度优化,平衡司法资源有限和现实司法需求之间的矛盾,该文建立审判人力资源调度优化模型,提出基于强化学习的审判团队调度优化策略.基于对审判人员调度问题和场景的分析,建立以案件的平均处理时间最小化为优化目标的审判人员调度优化数学模型以及相应的约束条件.在此基础上建立宏观的司法系统排队模型,定义审判人力资源调度马尔可夫决策过程,并基于状态/动作/奖励/状态/动作(Sate-Action-Reward-State-Action,SARSA)算法提出动态自适应的审判人员调度强化学习算法.该算法以案件的平均处理时间为奖励,通过贪婪行为策略选择调度策略,采用时序差分更新方法在与司法系统交互的过程中学习最优调度策略.相比于传统分案方法及其他基于规则的简单启发式算法,该算法能够提高案件审判效率、优化人力资源配置.
Trial Human Resources Scheduling Method Based on SARSA Reinforcement Learning

吴鹏、魏上清、董嘉鹏、潘理

展开 >

上海交通大学 电子信息与电气工程学院,上海 200240

信息内容分析技术国家工程实验室,上海 200240

强化学习 资源调度 决策优化 贪婪策略 马尔可夫决策过程

6200221919YF1424700

2022

计算机技术与发展
陕西省计算机学会

计算机技术与发展

CSTPCD
影响因子:0.621
ISSN:1673-629X
年,卷(期):2022.32(9)
  • 1
  • 8