首页期刊导航|工程科学学报
期刊信息/Journal information
工程科学学报
北京科技大学
工程科学学报

北京科技大学

徐金梧

月刊

2095-9389

xuebaozr@ustb.edu.cn

010-62332875

100083

北京海淀区学院路30号

工程科学学报/Journal Chinese Journal of EngineeringCSCD北大核心CSTPCDEI
查看更多>>本刊是由教育部主管、北京科技大学主办的学术类科技期刊。国内外公开发行,主要刊载矿业与环境工程、冶金工程、材料科学与工程、机械工程等与冶金工业相关的学科领域的最新研究成果,为中文核心期刊(冶金工业类)及中国科技论文统计源期刊。目前,已经被EI、CA、MA、《剑桥科学文摘社网站》、俄罗斯《文摘杂志》、德国《数学文摘》等国内外著名检索刊物或数据库列为收录源期刊,先后荣获首届国家期刊奖、中国期刊方阵“双高期刊”、第二、三届国家期刊奖百种重点期刊等多项大奖。
正式出版
收录年代

    基于覆盖理论的高速强机动目标协同围捕策略

    江涌王林波王蒙一宋勋...
    1169-1178页
    查看更多>>摘要:为了应对进攻性高超声速飞行器带来的威胁与挑战,基于覆盖理论提出了一种针对高速强机动目标的分布式协同围捕策略.首先,考虑飞行器与目标的机动特性,包括速度关系、最大过载比等参数,引入阿波罗尼奥斯圆的概念对围捕区域进行分析.然后,基于重叠角概念提出冗余覆盖策略,根据目标的逃逸边界给出初始飞行器最优数量,设计围捕队形使多飞行器的围捕区域能够对目标逃逸边界完全覆盖,在此基础上考虑多种约束设计围捕高速强机动目标的分布式协同制导律,使多飞行器能够完成所设计的围捕队形,达到目标被飞行器合围后无法逃脱的效果.最后,将上述覆盖策略分别在二维平面和三维空间进行数值仿真,验证了一致性协同制导律能够实现期望的围捕队形,所设计的围捕队形在目标作最大常值机动逃逸以及随机机动两种情况下均能捕获目标,证明了围捕队形和制导律的有效性和优越性.

    覆盖理论协同围捕高速强机动目标阿波罗尼奥斯圆围捕区域

    基于LSTM-PPO算法的多机空战智能决策及目标分配

    丁云龙匡敏驰朱纪洪祝靖宇...
    1179-1186页
    查看更多>>摘要:针对传统多机空战中智能决效率低、难以满足复杂空战环境的需求以及目标分配不合理等问题.本文提出一种基于强化学习的多机空战的智能决策及目标分配方法.使用长短期记忆网络(Long short-term memory,LSTM)对状态进行特征提取和态势感知,将归一化和特征融合后的状态信息训练残差网络和价值网络,智能体通过近端优化策略(Proximal policy optimization,PPO)针对当前态势选择最优动作.以威胁评估指标作为分配依据,计算综合威胁度,优先将威胁值最大的战机作为攻击目标.为了验证算法的有效性,在课题组搭建的数字孪生仿真环境中进行4v4多机空战实验.并在相同的实验环境下与其他强化学习主流算法进行比较.实验结果表明,使用LSTM-PPO算法在多机空战中的胜率明显优于其他主流强化学习算法,验证了算法的有效性.

    多机空战智能决策近端优化策略威胁评估目标分配

    基于深度强化学习的无人机集群数字孪生编队避障

    张宇宸段海滨魏晨
    1187-1196页
    查看更多>>摘要:无人机集群在各个领域中扮演着重要角色,具有丰富的应用场景.然而,将深度强化学习方法应用于自主无人机面临着诸多严峻挑战.本文基于多智能体深度强化学习,通过使用局部信息建立单个无人机的状态空间,并使用多智能体近端策略优化(Multi-agent proximal policy optimization,MAPPO)的在线策略算法来训练策略网络,从而克服了环境的不确定性和对全局信息的依赖.同时,引入了数字孪生的概念,为资源紧张型算法提供了新思路.为了解决采样困难和资源紧张的问题,基于数字孪生技术,构建了一个用于无人机编队避障策略模型训练的架构.首先,构建了多个数字孪生环境,用于强化学习算法在任务开始之前进行交互采样的预训练,以使集群具备基本的任务能力.然后,使用在真实环境中采集的数据进行补充训练,使得集群能够更好地完成任务.对采用这种两阶段训练架构的效果进行了对比,同时与其他策略算法进行比较,验证了MAPPO的样本效率性能.最后,设计了实际飞行验证测试,验证了从孪生环境中获得的策略模型的实用性和可靠性.

    数字孪生深度强化学习无人机编队控制避障

    未知环境下无人机集群智能协同探索路径规划

    王伟伦尤明孙磊张秀云...
    1197-1206页
    查看更多>>摘要:随着无人机执行任务复杂性与环境种类多样性的不断提高,多无人机集群系统逐渐得到国内外的广泛关注,无人机路径规划成为当前研究热点.考虑到传统路径规划算法一般需要先验地图信息,在搜索救援等环境未知场景中难以满足,本文提出了一种基于强化学习的未知环境下的无人机集群协同探索路径规划方法.首先,考虑无人机集群协同探索任务特点及动力学、避碰避障等约束条件,基于马尔可夫决策过程,建立无人机集群协同探索博弈模型与评价准则.其次,提出基于强化学习方法的无人机集群协同探索方法,建立基于策略−评判网络的双网络架构,并利用随机地图增强探索方法面对未知环境的泛化能力.每架无人机在探索过程中不断收集地图信息,并基于环境信息和个体间的共享信息调整自身策略,通过迭代训练实现未知环境下的集群协同探索.最后,基于Unity搭建无人机集群协同探索虚拟仿真平台,并与非合作的单智能体算法进行对比试验,验证了本文所提算法在任务成功率、任务完成效率和回合奖励等方面均具有优势.

    无人机集群深度强化学习自主探索路径规划

    基于联盟博弈的无人机/无人车异构集群验证

    王浩淼袁莞迈马可张颖...
    1207-1215页
    查看更多>>摘要:无人异构集群相较于单一类型、单一个体的无人平台,能够完成更为复杂的任务,同时对严苛战场环境有着更高的适应度.在无人异构集群协同执行任务时,任务分配是至关重要的环节,需要考虑异构无人平台和任务的多种约束和目标.传统的任务分配方法分配效率低且难以处理大规模复杂任务.联盟博弈通过形成由若干参与者组成的联盟,根据个体的属性、偏好对群体进行划分,从而实现个体以及群体利益的最大化.本文以无人异构集群任务分配为背景,研究了基于改进联盟博弈算法的最优分配策略,基于可能的战场环境设计了模拟任务场景并完成实验验证.首先,考虑异构平台在任务中的初始位置、速度、携带资源以及个体声誉等因素,建立了基于空间自适应博弈(Spatial adaptive play algorithm,SAP)的联盟博弈的任务分配算法模型.其次,基于任务场景,搭建了任务所需的软件与硬件平台.最后,针对模拟的战场环境,对所提算法及搭建的异构无人集群平台进行了实验验证.验证结果表明,在异构无人集群平台重分配的任务背景下,本平台能综合考虑战场态势,寻找最优的任务分配方式,协调各作战单位完成任务目标.

    联盟博弈无人集群系统异构平台任务分配战场态势空间自适应博弈

    基于动态贝叶斯网络的多无人机集群对抗策略

    贾永楠焦宇航陈萱李擎...
    1216-1226页
    查看更多>>摘要:红蓝双方集群攻防对抗博弈问题是近年来复杂系统研究领域的热点和难点,在军事领域、网络安全领域和人工智能领域均具有重要的应用价值.在实际对抗中,环境的不确定性和智能体行为的多样性导致问题难以建模,而实战环境又要求智能体能够对态势的变化给出实时、高效的响应.为解决上述问题,本文提出了一种面向红蓝双方集群攻防对抗博弈问题的研究框架.首先,提出了一种基于改进后的兰彻斯特方程的对抗博弈模型,并在此基础上探讨了如何适应性改进Kuhn-Munkres(KM)算法以解决对抗博弈过程中的多目标任务分配问题.其次,为了提升无人机个体的环境适应性,提出了一种集群攻防对抗策略,利用动态贝叶斯网络对集群攻防对抗过程中产生的一系列不确定性因素进行实时、高效的推理和预测.该策略可有效降低对抗模型的复杂度和计算量,广泛提高决策的精确性和快速性.最后,基于上述对抗博弈模型搭建了仿真平台,实时展示红蓝双方无人机集群对抗过程,并对上述算法的有效性进行验证.仿真结果表明,所提出的上述理论框架可以实现红蓝双方对抗模拟演示过程,可有效解决红蓝双方打击对抗过程中的多目标任务分配问题,并对对抗过程中所产生的不确定性因素进行合理的预测和评估.

    集群对抗分布式协同兰彻斯特方程KM算法动态贝叶斯网络

    基于图卷积深度强化学习的协同空战机动决策方法

    欧洋郭正玉罗德林缪克华...
    1227-1236页
    查看更多>>摘要:针对多无人机智能协同空战对抗决策问题,提出了一种基于长短期记忆与竞争图卷积深度强化学习的多机协同空战机动对抗决策方法.首先,对多机协同空战对抗问题进行描述;其次,在竞争Q网络中,引入长短期记忆网络用于处理带有强时序相关性的空战信息,接着,搭建图卷积网络作为多机之间的通信基础,提出基于长短期记忆与竞争图卷积深度强化学习算法的协同空战训练框架,并对协同空战决策训练算法进行了设计.二对一空战仿真结果验证了本文所提出的协同智能对抗决策方法的有效性,其具有决策速度快、学习过程稳定的特点以及适应空战环境快速变化下的协同策略学习能力.

    无人机深度强化学习机动决策多机协同空战决策

    基于强化学习的多无人车协同围捕方法

    苏牧青王寅濮锐敏余萌...
    1237-1250页
    查看更多>>摘要:本文面向无人车协同围捕问题开展研究,提出了一种基于柔性执行者-评论家(SAC)算法框架的协同围捕算法.针对多无人车之间的协同性差的问题,在网络结构中加入长短期记忆(LSTM)构建记忆功能,帮助无人车利用历史观测序列进行更稳健的决策;针对网络结构中引入LSTM所导致的状态空间维度增大、效率低的问题,提出引入注意力机制,通过对状态空间进行注意力权重的计算和选择,将注意力集中在与任务相关的关键状态上,从而约束状态空间维度并保证网络的稳定性,实现多无人车之间稳定高效的合作并提高算法的训练效率.为解决协同围捕任务中奖励稀疏的问题,提出通过混合奖励函数将奖励函数分为个体奖励和协同奖励,通过引入个体奖励和协同奖励,无人车在围捕过程中可以获得更频繁的奖励信号.个体奖励通过引导无人车向目标靠近来激励其运动行为,而协同奖励则激励群体无人车共同完成围捕任务,从而进一步提高算法的收敛速度.最后,通过仿真和实验表明,该方法具有更快的收敛速度,相较于SAC算法,围捕时间缩短15.1%,成功率提升7.6%.

    无人车协同围捕柔性执行者-评论家算法注意力机制奖励函数设计

    基于学习机制的多智能体强化学习综述

    王若男董琦
    1251-1268页
    查看更多>>摘要:强化学习作为人工智能领域的重要分支,以其在多智能体系统决策中的卓越表现,成为当前主流方法.然而,传统的多智能体强化学习算法在面对维度爆炸、训练样本稀缺和难以迁移等方面仍然存在困难.为了克服这些挑战并提升算法性能,本文从学习机制的角度入手,深入研究学习机制与强化学习的深度融合,以推动多智能体强化学习算法的发展.首先,介绍了多智能体强化学习算法的基本原理、发展历程以及算法所面临的难点.随后,引入了基于学习机制的多智能体强化学习方法这一种新兴方向.这些学习机制,如元学习和迁移学习,被证明可以有效提升多智能体的学习速度,并缓解维度爆炸等问题.按照课程学习、演化博弈、元学习、分层学习、迁移学习等学习机制在多智能体强化学习中的应用进行了综述,通过罗列这些方法的研究成果,论述了各种方法的局限性,并提出了未来改进的方向.总结了这类融合算法在实际应用中取得的提升成果和实际应用,具体列举了基于学习机制的多智能体强化学习算法在交通控制、游戏领域的实际应用案例.同时,对这类融合算法未来在理论、算法和应用方面的发展方向进行了深入分析.这涵盖了对新颖理论的探索、算法性能的进一步优化,以及在更广泛领域中的推广应用.通过这样的综述和分析,为未来多智能体强化学习算法的研究方向和实际应用提供了有益的参考.

    强化学习多智能体博弈学习机制课程学习演化强化学习

    基于自组织聚类的多机协同编批方法

    张世辉金同清张运杰周锐...
    1269-1278页
    查看更多>>摘要:针对多机协同对抗过程中的编批问题,设计了一种基于改进自组织迭代聚类的多机协同编批方法.该方法解决了传统自组织迭代聚类算法中人工参数设置不便利不直观的问题,能够在给定少数直观超参数条件下,使多机自主调整聚类过程中所涉及的参数,最终迭代出合理的编批结果.首先对高维多机态势信息进行标准化和主成分分析处理,从而确认新的向量空间;然后引入密度聚类中的邻域密度判别思想对传统自组织迭代聚类方法的合并和分裂操作进行改进,优化并减少了传统方法进行分裂和合并操作所涉及的人工参数,提升了执行编批聚类任务的智能自主性;最后选取算法评价指标,使用所提算法以及传统算法对多个人工合成数据以及实际想定场景进行聚类测试并对测试结果进行评价.人工合成数据仿真表明改进自组织迭代聚类算法在优化聚类过程中的人工参数后仍与原始算法表现出相当的性能,实际想定场景的编批结果进一步说明了改进自组织迭代聚类算法在具体应用场景中的有效性以及在未来实际场景中的实用性.

    多机协同编批高维态势信息自组织聚类超参数