基于强化学习的综合能源系统优化决策方法研究

杨凌霄¹

扫码查看

作者信息

1. 东北大学
折叠

摘要

在环境污染日趋严重，化石能源逐渐枯竭的背景下，能源系统的发展趋向于清洁化、智能化，我国已将“互联网+”智慧能源的发展提升为国家战略。综合能源系统作为新一轮能源产业革命的代表，其有效的优化决策能够满足能源系统产能优化、储能配置和用能响应的“产-配-用”协同管理，从而从安全性、经济性、环保性等多维度实现能源系统优化运行，促进“碳达峰，碳中和”目标的实现。伴随着能源结构从单一传统能源向多源清洁能源转变，以及具有能源生产、存储、消费多种特性的新型能源终端高比例接入能源系统，各环节的交互作用增强，能源网络的结构趋向复杂和灵活。同时，随着研究的推进，能量单元在综合能源系统中起到关键作用，能量交互的形式也更加多样，包含能量单元(简称“元”)与能源网络间的“元-网”交互、能量单元间的“元-元”交互，以及两者共同作用等。基于此，综合能源系统优化决策问题面临精确建模难、多变量泛化影响强、实时性和自适应性要求高等难题，传统优化技术存在诸多局限性，难以处理上述问题。强化学习作为一种模型依赖程度低、环境交互能力强、自学习自适应性能高的机器学习方法，形成了一种更为灵活和自主的新模式，有助于促进能源系统的安全、经济和可靠性的运行，是解决这一类优化决策问题的有效措施之一。本文以综合能源系统中的能量单元为基础，围绕基于强化学习的综合能源系统优化决策问题展开研究。首先，针对单主体的综合能源系统优化决策问题，提出了基于人在回路的多策略强化学习优化方法，实现人机双向协作的智能能量管理。在此基础上，针对“元-网”多主体交互的综合能源系统优化决策问题，提出了一种基于均衡强化学习的互联自能源博弈模型，实现自能源之间的协调互联。接下来进一步研究了综合能源系统中“元-元/元-网”多主体交互的优化决策问题，设计了一种非直接市场匹配结构与机制以及基于深度强化学习的区域综合能源系统能源交易策略。最后，针对资源传输受限下的“元-元”多主体交互的综合能源系统能量管理问题，设计了考虑梯度利用的能量枢纽模型，并提出了基于混合策略强化学习的能量管理方法。本文的主要贡献如下: (1)针对综合能源系统中单主体自能源的能量优化决策问题，建立了一种适用于不同工况下的自能源经济效益和安全运行多目标优化模型。其次，提出了一种可以在无环境模型的情况下搜索多目标策略集的多策略凸包强化学习算法。进一步地，综合考虑人工智能技术的局限性和人类在处理复杂任务方面的优势，构建了同时适用于正常工况和异常工况的双通道人在回路方法，并结合所提多策略强化学习算法以规避决策风险。最后，通过仿真验证了所提方法可实现自能源在正常和异常工况下的安全经济运行。 (2)针对“元-网”多主体交互的互联自能源优化决策问题，提出了一种基于非合作博弈的综合能源系统管理模型。在此基础上，通过建立离散的自适应动作集对自能源连续动作空间进行离散化处理，并提出了一种改进的Nash Q-learning算法以适用于自能源在未知环境模型下的均衡博弈。进一步地，为提高算法的学习效率，引入均衡迁移机制以实现经验存储和对经验策略的迁移。最后，仿真结果验证了所提优化决策方法可在未知环境模型条件下获取更好的均衡策略。 (3)针对多主体间“元-元/元-网”交互的综合能源系统优化决策问题，提出了一种非直接市场匹配结构。通过市场管理者与能量转换装置的参与，提高市场能量匹配的效率。在此基础上，构建了考虑多时间尺度的混合交易机制。进一步地，将能源交易过程构建为马尔可夫决策过程并且提出针对区域综合能源系统能源交易的深度强化学习算法，成功避免了系统建模可能造成的误差。最后，通过仿真验证了所提方法的有效性。 (4)针对资源传输受限下的“元-元”交互的综合能源系统能量管理问题，以岛屿群为典型场景，提出了一种可以实现能量梯级利用的岛屿能量枢纽模型。在此基础上，建立了综合考虑岛屿需求-资源逆分布特性的岛屿群综合能源系统能量管理模型。进一步地，针对岛屿群综合能源系统能量管理模型所存在的离散-连续混合动作空间，提出了混合策略强化学习方法，在不简化模型的情况下获取岛屿群综合能源系统的最优能量管理策略。最后，通过仿真验证了所提自适应能量管理方法的有效性。

关键词

综合能源系统/能量单元/优化决策/强化学习

引用本文复制引用

授予学位

博士

学科专业

电力电子与电力传动

导师

孙秋野

学位年度

2022

学位授予单位

东北大学

语种

中文

中图分类号

段落导航