摘要
根据深度确定性策略梯度算法理论,提出了端到端的自动驾驶控制策略,通过Carla无人驾驶模拟器,以汽车前视图像和少量测量信息作为输入,直接输出转向、油门或制动的控制动作.同时,鉴于强化学习过程中存在大量试错行为,设计了对危险试错动作加以约束并修正的监督器,以减少危险动作并提升训练效率.根据Carla的训练测试结果表明,深度确定性策略梯度算法能使小车学习到有效的自动驾驶策略,且添加监督器之后的算法能明显减少试错行为并提升训练效率.
基金项目
国家自然科学基金(51905061)
重庆市研究生教育教学改革研究项目(yjg203115)