计算机研究与发展2021,Vol.58Issue(12) :2585-2603.DOI:10.7544/issn1000-1239.2021.20211023

面向无人驾驶时空同步约束制导的安全强化学习

Spatio-Clock Synchronous Constraint Guided Safe Reinforcement Learning for Autonomous Driving

王金永 黄志球 杨德艳 Xiaowei Huang 祝义 华高洋
计算机研究与发展2021,Vol.58Issue(12) :2585-2603.DOI:10.7544/issn1000-1239.2021.20211023

面向无人驾驶时空同步约束制导的安全强化学习

Spatio-Clock Synchronous Constraint Guided Safe Reinforcement Learning for Autonomous Driving

王金永 1黄志球 1杨德艳 2Xiaowei Huang 3祝义 2华高洋1
扫码查看

作者信息

  • 1. 南京航空航天大学计算机科学与技术学院 南京211106;高安全系统的软件开发与验证技术工信部重点实验室(南京航空航天大学) 南京211106
  • 2. 江苏师范大学计算机科学与技术学院 江苏徐州 221116
  • 3. 利物浦大学计算机科学系 英国利物浦 L693BX
  • 折叠

摘要

无人驾驶系统综合了软件和硬件复杂的交互过程,在系统设计阶段,形式化方法可以保证系统满足逻辑规约和安全需求;在系统运行阶段,深度强化学习被广泛应用于无人驾驶系统决策中.然而,在面对没有经验的场景和复杂决策任务时,基于黑盒的深度强化学习系统并不能保证系统的安全性和复杂任务奖励函数设置的可解释性.为此提出了一种形式化时空同步约束制导的安全强化学习方法.首先,提出了一种形式化时空同步约束规约语言,接近自然语言的安全需求规约使奖励函数的设置更具有解释性.其次,展示了时空同步自动机和状态-动作空间迁移系统,保证强化学习的状态行为策略更加安全.然后,提出了结合形式化时空约束制导的安全强化学习方法.最后,通过无人驾驶汽车在高速场景变道超车的案例,验证所提方法的有效性.

关键词

时空同步约束/形式化规约/安全强化学习/时序差分/智能交通仿真/无人驾驶安全

引用本文复制引用

基金项目

国家重点研发计划项目(2018YFB1003900)

国家自然科学基金(61772270)

国家自然科学基金(62077029)

出版年

2021
计算机研究与发展
中国科学院计算技术研究所 中国计算机学会

计算机研究与发展

CSTPCDCSCD北大核心
影响因子:2.649
ISSN:1000-1239
被引量3
参考文献量3
段落导航相关论文