首页期刊导航|信息与电子工程前沿(英文)
期刊信息/Journal information
信息与电子工程前沿(英文)
浙江大学出版社
信息与电子工程前沿(英文)

浙江大学出版社

月刊

2095-9184

杭州浙大路38号浙大学报英文版编辑部

信息与电子工程前沿(英文)/Journal Frontiers of Information Technology & Electronic EngineeringCSCDCSTPCD北大核心EISCI
正式出版
收录年代

    基于Transformer的强化学习方法在智能决策领域的应用:综述

    袁唯淋陈佳星陈少飞冯大为...
    763-790,后插10页
    查看更多>>摘要:强化学习已成为一种主导的决策范式,在许多现实应用中取得令人瞩目的成果.在大规模决策场景中,深度神经网络成为释放强化学习巨大潜力的关键所在.受自然语言和视觉领域中先进Transformer方法的启发,Transformer和强化学习的结合,突破了智能决策领域许多瓶颈.本文从基础模型、先进算法、代表性示例、典型应用和挑战分析等层面,归纳总结了基于Transformer的强化学习方法(TransRL),旨在深入分析当前强化学习方法的痛点,讨论TransRL如何突破强化学习范式的局限.据我们所知,本文是第一篇系统性回顾基于Transformer的强化学习方法在智能决策领域应用进展的综述,期望提供一个全面的TransRL讨论基础,推动强化学习在此领域的应用.为便于跟进TransRL的前沿进展,我们整理了最新相关论文及其开源项目,详见https://github.com/williamyuanv0/Transformer-in-Reinforcement-Learning-for-Decision-Making-A-Survey.

    Transformer强化学习智能决策深度神经网络多智能体强化学习元强化学习

    信息中心卫星网络中缓解突发流量的最优替代策略—聚集遥感图像传输

    邢紫阳底晓强祁晖陈静...
    791-808,中插1-中插8,后插11页
    查看更多>>摘要:信息中心卫星网络在遥感图像传输中发挥着重要作用,然而,突发业务的出现在满足日益增长的带宽需求方面带来重大挑战.传统内容传输网络(CDN)由于需要预先部署内容,不具备应对此类突发流量的能力.本文提出一种最优替代策略,用于缓解信息中心卫星网络中的突发流量,特别是针对遥感图像传输.当多个用户在短时间内订阅相同的遥感图像内容时,所提策略选择最优的替代交付卫星节点,有效减少网络传输数据,防止突发流量导致的吞吐量下降.将内容传输过程公式化为一个多目标优化问题,应用马尔可夫决策确定突发流量减少的最优值,并利用联邦强化学习求解.此外,基于布隆过滤器设计了图像划分和识别方法,快速检索编码后的遥感图像.通过软件模拟低轨道卫星星座,验证了所提策略的有效性,平均交付时延减少17%.本文为卫星网络内容高效传输,特别是遥感图像传输,提供宝贵见解,并提出一种有前景的途径缓解信息中心环境中的突发流量挑战.

    信息中心卫星网络突发流量内容传输联邦强化学习混合整数线性规划模型布隆过滤器动态网络

    通过类别特定帧聚类增强动作显著性的弱监督时序动作检测

    夏惠芬詹永照刘洪麟任晓鹏...
    809-823,后插12页
    查看更多>>摘要:时序动作检测任务是指在未裁剪的视频中检测出动作的开始时间和结束时间,并对动作实例进行分类.随着视频中动作类别的增多,现有仅提供视频级别标签的弱监督时序动作检测方法已无法提供足够的监督.单帧标注方法引起了人们兴趣.但现有单帧标注方法仅从视频片段序列的角度对标注的单帧建模,而忽略了标注单帧的动作显著性,并且没有充分考虑它们在同一动作类别中的相关性.考虑到在同一动作类别中,带标注的单帧能表现出独特的外观特征和清晰的动作模式,本文提出一种新颖的通过类别特定帧聚类来增强动作显著性的弱监督时序动作检测方法.该方法采用 K-均值聚类算法对同一动作类别的帧聚合,将其作为该动作类别的特征表示.通过计算每帧与各个动作类别之间的相似度,得到类激活分数.特定于类别的单帧表征建模可以为主线中的视频片段序列建模提供补充性的指导.因此,针对标注的帧和其对应的视频片段序列,提出凸组合融合机制,用于增强动作显著性的一致性特性,从而生成更加鲁棒的类激活序列,进行精确的动作分类和动作定位.由于动作显著性增强的补充指导,该方法优于现有的基于单帧标注的动作检测方法.在THUMOS14、GTEA和BEOID 3个数据集上进行的实验表明,与最新的方法相比,所提方法具有更高的检测性能.

    弱监督时序动作检测单帧标注类别特定动作显著性

    三维无人机-多接入边缘计算场景下的多智能体协作任务调度能效优化方案

    李阳魏子令苏金树赵宝康...
    824-838,中插9-中插15,后插13页
    查看更多>>摘要:针对智能应用算力处理需求,多接入边缘计算(multi-access edge computing,MEC)在网络边缘为其提供计算服务.无人机(unmanned aerial vehicle,UAV)具有良好机动性,可在MEC中作为临时空中边缘节点为地面用户提供边缘服务.然而,MEC环境复杂且动态可变,如何为多台无人机制定合适的服务策略具有一定挑战.此外,现有很多UAV-MEC相关工作均假定无人机飞行高度固定,即飞行在二维平面内,忽略了飞行高度的重要性.在同信道干扰存在的前提下,本文通过优化能效实现任务完成量的最大化,多台无人机在三维空间中共同协作为地面用户提供任务计算服务.为实现能效优化目标,最大化任务完成量并最小化飞行能耗,须制定最优飞行策略、子信道选择策略以及任务调度策略.基于多智能体深度确定性策略梯度算法(multi-agent deep deterministic policy gradient,MADDPG),本文提出好奇心驱动和双网络结构的多智能体深度确定性策略梯度算法(curiosity-driven and twin-networks-structured MADDPG,CTMADDPG)解决上述优化问题,通过内部奖励促进智能体的状态探索,避免收敛于次优策略.同时,利用双批评家网络降低Q值高估概率,实现稳定更新.仿真结果表明CTMADDPG算法在最大化整个系统能效方面表现突出,优于其他基准测试算法.

    多接入边缘计算多智能体强化学习无人机任务调度

    PEGA:一种考虑表观遗传特征平衡全局和局部优化的概率环境梯度驱动遗传算法

    段峙宇杨顺昆邵麒杨明浩...
    839-855,中插16-中插20,后插14页
    查看更多>>摘要:表观遗传学的灵活性使进化机制更加精细和多样化.从表观遗传的角度来看,提升遗传算法的稳定性和准确性需要重点解决两个方面的问题:(1)恒定外部环境导致突变或交叉后表型变化的过度无序性;(2)表观遗传算子类型有限导致的过早收敛.为此本文提出一种考虑表观遗传特征的概率环境梯度驱动遗传算法(PEGA).提出概率环境梯度下降策略(PEG),其基于多维异构指数环境向量在解空间中沿梯度方向生成更多后代,以提高局部收敛效率并获得稳定的局部搜索能力.为了在不同进化阶段平衡全局和局部搜索,设计了可变核小体重组算子(VNR)以动态调整参与突变和交叉的基因数量.在此基础上,引入3个表观遗传算子,通过丰富遗传多样性来减少过早收敛的可能.在CEC'17基准函数集上10维,30维,50维和100维的实验结果表明,PEGA的准确性和稳定性均优于10种先进的进化和群体智能算法.消融分析验证了PEG和VNR在96.55%的测试函数上的有效性,并可将准确性提高至多4个数量级.此外,PEGA在航天器轨迹优化问题上也表现出了最佳综合性能.

    进化算法表观遗传学表观遗传算法概率环境向量可变核小体重组

    基于混合信号的神经模糊Wiener-Hammerstein系统辨识

    李峰杨浩曹晴峰
    856-868,后插15页
    查看更多>>摘要:提出一种基于混合信号的神经模糊Wiener-Hammerstein(W-H)系统分离辨识策略.W-H系统由两个线性动态模块和一个非线性静态模块组成.静态非线性模块利用神经模糊网络(NFN)建模,两个线性动态模块分别利用自回归外生(ARX)模型和自回归(AR)模型建模.当系统输入为高斯信号时,利用相关分析技术解耦两个线性动态模块的辨识与非线性模块辨识.首先,基于高斯信号的输入和输出,利用相关分析技术辨识输入线性模块和输出线性模块,解决了W-H系统中间变量信息无法测量的问题.然后,采用零极点匹配方法分离两个线性模块的参数.此外,基于随机信号的输入和输出,利用递归最小二乘法识别非线性模块,避免输出噪声的影响.数值仿真和非线性过程仿真证明了所提辨识技术的可行性.仿真结果表明,所提策略可以获得比现有辨识算法更高的辨识精度.

    Wiener-Hammerstein系统神经模糊网络相关分析技术混合信号分离辨识

    非线性二阶系统的多智能体强化学习行为控制

    张祯毅黄捷潘聪捷
    869-886,中插21-中插26,后插16页
    查看更多>>摘要:强化学习行为控制局限于没有群体任务的单个智能体,因为其将行为优先级学习建模为马尔可夫决策过程.本文提出一种新颖的多智能体强化学习行为控制方法,该方法通过执行联合学习克服上述缺陷.具体而言,针对一组非线性二阶系统,设计一个多智能体强化学习任务监管器以在任务层分配行为优先级.通过将行为优先级切换建模为协作式马尔可夫博弈,多智能体强化学习任务监管器学习最优联合行为优先级,以减少对人类智能和高性能计算硬件的依赖.在控制层,设计了一组二阶强化学习控制器用以学习最优控制策略,实现位置和速度信号的同步跟踪.特别地,设计了一组自适应补偿器以保证输入饱和约束.数值仿真结果验证了所提出的多智能体强化学习行为控制对比有限时间、固有时间和强化学习行为控制具有更低的切换频率和控制代价.

    强化学习行为控制二阶系统任务监管

    基于非对称时变积分障碍李雅普诺夫函数的动态状态约束非线性系统自适应最优控制

    魏岩郝明爽禹鑫燚欧林林...
    887-902,后插1-后插9,后插17页
    查看更多>>摘要:本文研究具有动态状态约束的非线性系统自适应最优跟踪控制问题.首先提出一种基于非对称时变积分障碍李雅普诺夫函数(ATIBLF)的积分强化学习(IRL)控制算法.在最优反步控制设计的每一步中都引入ATIBLF,以确保系统始终满足动态变化的全状态约束.每个子系统中的最优虚拟/实际控制器均用ATIBLF和自适应最优项进行分解,同时利用神经网络来近似最优代价函数梯度.根据李雅普诺夫稳定性定理,证明了闭环系统所有信号的有界性.所提出的控制方案保证了系统状态在预定义的紧集内.最后,通过仿真实验验证了本文所提方法的有效性.

    状态约束非对称时变积分障碍李雅普诺夫函数(ATIBLF)自适应最优控制非线性系统

    Information for Authors

    封2页