首页|基于Q学习的劣化系统检测与维修问题求解

基于Q学习的劣化系统检测与维修问题求解

扫码查看
针对离散状态连续时间下的劣化系统检测与维修问题,本文建立了半马尔科夫决策过程(Semi-Markov Decision Process,SMDP)模型。由于状态的转移概率难以求解,以及为了避免结果陷入局部最优值,本文使用Q学习与模拟退火(Simulated Annealing,SA)相结合的算法对该问题进行求解,得到系统最佳的维修策略。最后通过仿真分别得出平均和折扣准则下的优化结果,表明了方法的可行性。另外还通过仿真数据讨论了检测间隔的设定对最优平均代价的影响,其结果与实际情况相符合。

郭一明、周雷、唐昊、史久根

展开 >

合肥工业大学计算机与信息学院,合肥230009

合肥工业大学计算机与信息学院,合肥230009 安全关键工业测控技术教育部工程研究中心,合肥230009

离散状态连续时间 劣化系统 半马尔科夫决策过程 Q学习 模拟退火 维修策略

中国自动化学会

第29届中国控制会议

2010-07-29

北京

第29届中国控制会议论文集

4088-4092

2010