首页期刊导航|电子与信息学报
期刊信息/Journal information
电子与信息学报
电子与信息学报

吴一戎

月刊

1009-5896

jeit@mail.ie.ac.cn

010-58887066

100190

北京市北四环西路19号

电子与信息学报/Journal Journal of Electronics & Information TechnologyCSCD北大核心CSTPCDEI
查看更多>>本刊是电子科学高级综合性学术刊物。主要刊登有关电子与信息科学方面的具有创新性的、高水平的文章。
正式出版
收录年代

    基于信息分形的行人轨迹预测方法

    杨田王钢赖健汪洋...
    527-537页
    查看更多>>摘要:行人轨迹预测应用十分广泛,比如自动驾驶、机器人导航等.在轨迹预测中,一些不确定信息给轨迹预测任务带来了挑战,比如判别器中对轨迹信息判别的不确定,复杂的交互信息.在不确定信息处理科学领域,信息分形能有效处理不确定信息的不确定性和复杂性.受此启发,为了充分处理判别器中轨迹信息判别的不确定性,提升预测精度,该文提出了基于信息分形的轨迹预测方法.首先,场景信息和历史轨迹信息被特征提取模块提取.然后,通过注意力模块获取到场景-行人之间的交互信息与行人-行人之间的交互信息.最后基于生成对抗网络和信息分形生成合理的轨迹.在两个公共数据集ETH/UCY上实验表明,该方法能有效处理轨迹信息的不确定性,提高轨迹预测的精度.比如突然转弯、从后方超越前人、避让等行为的轨迹都能有效预测.在平均位移误差(ADE)和终点位移误差(FDE)上相比基准模型误差平均降低了11.11%和23.48%.

    行人轨迹预测不确定信息处理信息分形生成对抗网络

    聚类与信息共享的多智能体深度强化学习协同控制交通灯

    杜同春王波程浩然罗乐...
    538-545页
    查看更多>>摘要:该文提出一种适用于多路口交通灯实时控制的多智能体深度循环Q-网络(MADRQN),目的是提高多个路口的联合控制效果.该方法将交通灯控制建模成马尔可夫决策过程,将每个路口的控制器作为智能体,根据位置和观测信息对智能体聚类,然后在聚类内部进行信息共享和中心化训练,并在每个训练过程结束时将评价值最高的值函数网络参数分享给其它智能体.在城市交通仿真软件(SUMO)下的仿真实验结果表明,所提方法能够减少通信的数据量,使得智能体之间的信息共享和中心化训练更加可行和高效,车辆平均等待时长少于当前最优的基于多智能体深度强化学习的交通灯控制方法,能够有效地缓解交通拥堵.

    交通信号灯协同控制集中训练分散执行强化学习智能体聚类生长型神经气深度循环Q网络

    基于跨语种声学分析的帕金森病检测方法

    季薇王传瑜吴迪李云...
    546-554页
    查看更多>>摘要:基于语音的帕金森病检测具有非介入式、成本较低和无创等优点.当前公开的帕金森病语音数据集大多来源于单一语种,存在数据容量不够大、受试者母语发音特点差异小等特点.单一语种数据集上训练的帕金森病检测模型在面对跨语种语音数据时,将出现性能下降.为避免语种差异带来的影响,提升模型在跨语种场景下的检测性能,该文引入对抗迁移学习和特征解耦的思想,提出一种帕金森病跨语种声学分析模型(CLSAM).首先,将基于多头自注意力机制的Transformer编码块和多层神经网络级联,组成特征提取器模块,用于将从源域和目标域语音中提取的原始Fbank语音特征初步解耦为两个向量,即域不变病理信息表征向量和域信息表征向量;设计了目标任务不一致的双重对抗训练模块,显式地分离域不变病理信息和域信息;最终,提取跨语种语音数据中的域不变病理信息用于帕金森病检测.该文在公开的MaxLittle帕金森病语音数据集以及自采的帕金森病语音数据集上,采用十折交叉验证的方法验证了所提方法的有效性.实验结果表明:与传统机器学习方法以及现有的迁移学习算法相比,所提模型在跨语种场景中的检测准确率、敏感度和F1分数等性能均有明显提升.

    跨语种声学分析帕金森病对抗迁移学习特征解耦

    面向可穿戴式的基于LSTM神经网络的智能心音异常诊断芯片

    周维新高肇岗肖宛昂
    555-563页
    查看更多>>摘要:心血管疾病是造成全球死亡人数最多的疾病之一,因此对心血管疾病的预防与提前诊断至关重要.人工听诊技术与计算机心音诊断技术无法满足对心音长时间听诊的需求,因而可穿戴式听诊设备越来越受到关注,但是其具有高精度与低功耗的要求.该文设计了低功耗的面向可穿戴式的基于长短期记忆网络(Long Short-Term Memory,LSTM)的智能心音异常诊断芯片,提出了包括预处理、特征提取以及异常诊断的心音异常诊断系统,并搭建了基于听诊器的心音采集FPGA系统,采用了数据增强的方法解决数据集的不平衡问题.基于预训练模型设计了智能心音异常诊断芯片,在SMIC180 nm工艺下完成了版图设计和MPW流片.后仿真结果表明,智能心音异常诊断芯片的诊断准确率为98.6%,功耗为762 mW,面积为3.06 mm×2.45 mm,满足可穿戴式智能心音异常诊断设备的高性能与低功耗的需求.

    可穿戴式心音异常诊断长短期记忆网络低功耗

    基于汉字拆分嵌入和二部图的残损碑文识别

    蔺广逢吴娜贺梦兰张二虎...
    564-573页
    查看更多>>摘要:古籍碑刻承载着丰富的历史文化信息,但是由于自然风化浸蚀和人为破坏使得碑石上的文字信息残缺不全.古碑文语义信息多样化且样例不足,使得学习行文语义补全识别残损文字变得十分困难.该文试图从字形空间语义建模解决补全残损汉字进行识别理解这一挑战性任务.该文在层级拆分嵌入(HDE)编码方法的基础上使用动态图修补嵌入(DynamicGrape),对待识别汉字的图像进行特征映射并判别是否残损.如未残损直接转化为层级拆分编码,输入二部图推理字节点到部件节点的边权重,比对字库编码识别理解;如残损需要在字库里检索可能字和部件,对汉字编码的特征维度进行选择,输入二部图推理预测可能的汉字结果.在自建的数据集以及中文自然文本(CTW)数据集中进行验证,结果表明二部图网络可以有效迁移和推理出残损文字字形信息,该文方法可以有效对残损汉字进行识别理解,为残损结构信息处理开拓出了新的思路和途径.

    残损碑文碑文预测碑文识别残损文字识别二部图神经网络

    多层次时空特征自适应集成与特有-共享特征融合的双模态情感识别

    孙强陈远
    574-587页
    查看更多>>摘要:在结合脑电(EEG)信号与人脸图像的双模态情感识别领域中,通常存在两个挑战性问题:(1)如何从EEG信号中以端到端方式学习到更具显著性的情感语义特征;(2)如何充分利用双模态信息,捕捉双模态特征中情感语义的一致性与互补性.为此,提出了多层次时空特征自适应集成与特有-共享特征融合的双模态情感识别模型.一方面,为从EEG信号中获得更具显著性的情感语义特征,设计了多层次时空特征自适应集成模块.该模块首先通过双流结构捕捉EEG信号的时空特征,再通过特征相似度加权并集成各层次的特征,最后利用门控机制自适应地学习各层次相对重要的情感特征.另一方面,为挖掘EEG信号与人脸图像之间的情感语义一致性与互补性,设计了特有-共享特征融合模块,通过特有特征的学习和共享特征的学习来联合学习情感语义特征,并结合损失函数实现各模态特有语义信息和模态间共享语义信息的自动提取.在DEAP和MAHNOB-HCI两种数据集上,采用跨实验验证和5折交叉验证两种实验手段验证了提出模型的性能.实验结果表明,该模型取得了具有竞争力的结果,为基于EEG信号与人脸图像的双模态情感识别提供了一种有效的解决方案.

    双模态情感识别脑电人脸图像多层次时空特征特征融合

    结合时间注意力机制和单模态标签自动生成策略的自监督多模态情感识别

    孙强王姝玉
    588-601页
    查看更多>>摘要:大多数多模态情感识别方法旨在寻求一种有效的融合机制,构建异构模态的特征,从而学习到具有语义一致性的特征表示.然而,这些方法通常忽略了模态间情感语义的差异性信息.为解决这一问题,提出了一种多任务学习框架,联合训练1个多模态任务和3个单模态任务,分别学习多模态特征间的情感语义一致性信息和各个模态所含情感语义的差异性信息.首先,为了学习情感语义一致性信息,提出了一种基于多层循环神经网络的时间注意力机制(TAM),通过赋予时间序列特征向量不同的权重来描述情感特征的贡献度.然后,针对多模态融合,在语义空间进行了逐语义维度的细粒度特征融合.其次,为了有效学习各个模态所含情感语义的差异性信息,提出了一种基于模态间特征向量相似度的自监督单模态标签自动生成策略(ULAG).通过在CMU-MOSI,CMU-MOSEI,CH-SIMS 3个数据集上的大量实验结果证实,提出的TAM-ULAG模型具有很强的竞争力:在分类指标(Acc2,F1)和回归指标(MAE,Corr)上与基准模型的指标相比均有所提升;对于二分类识别准确率,在CMU-MOSI和CMU-MOSEI数据集上分别为87.2%和85.8%,而在CH-SIMS数据集上达到81.47%.这些研究结果表明,同时学习多模态间的情感语义一致性信息和各模态情感语义的差异性信息,有助于提高自监督多模态情感识别方法的性能.

    多模态情感识别自监督标签生成多任务学习时间注意力机制多模态融合

    沉浸式视频编码技术综述

    曾焕强孔庆玮陈婧朱建清...
    602-614页
    查看更多>>摘要:随着虚拟现实、增强现实等沉浸式媒体技术的发展,沉浸式视频的表示、存储、传输和显示等各个环节都受到了科研及产业界的广泛关注.沉浸式视频更复杂的视频特性和庞大的数据量,对传统视频编码技术提出了挑战,新的编码技术应运而生.该文从视频自由度(DoF)出发,分别从3DoF和6DoF两个方面介绍沉浸式视频编码技术的最新成果.3DoF视频相关编码技术包括投影模型、运动估计模型和3DoF视频编码标准.6DoF视频相关编码技术包括视频表示形式、虚拟视点合成技术、6DoF视频编码技术及运动图像专家组沉浸式视频(MPEG,MIV)编码标准.最后,对沉浸式视频及其编码技术的发展进行总结和展望.

    视频编码沉浸式视频全景视频自由视点视频

    基于视觉自注意力模型与轨迹滤波器的篮球战术识别

    许国良沈刚梁旭鹏雒江涛...
    615-623页
    查看更多>>摘要:通过机器学习分析球员轨迹数据获得进攻或防守战术,是篮球视频内容理解的关键组成部分.传统机器学习方法需要人为设定特征变量,灵活性大大降低,因此如何自动获取可用于战术识别的特征信息成为关键问题.为此,该文基于美国职业篮球联赛(NBA)比赛中球员轨迹数据设计了一个篮球战术识别模型(TacViT),该模型以视觉自注意力模型(ViT)作为主干网络,利用多头注意力模块提取丰富的全局轨迹特征信息,同时并入轨迹滤波器来加强球场线与球员轨迹之间的特征信息交互,增强球员位置特征表示,其中轨迹滤波器以对数线性复杂度学习频域中的长期空间相关性.该文将运动视觉系统(SportVU)的序列数据转化为轨迹图,自建篮球战术数据集(PlayersTrack),在该数据集上的实验表明,TacViT的准确率达到了82.5%,相对未做更改的视觉自注意力S模型(ViT-S),精度上提升了16.7%.

    篮球战术识别球员轨迹轨迹滤波器对数线性复杂度多头注意力

    利用跨模态轻量级YOLOv5模型的PET/CT肺部肿瘤检测

    周涛叶鑫宇刘凤珍陆惠玲...
    624-632页
    查看更多>>摘要:多模态医学图像可在同一病灶处提供更多语义信息,针对跨模态语义相关性未充分考虑和模型复杂度过高的问题,该文提出基于跨模态轻量级YOLOv5(CL-YOLOv5)的肺部肿瘤检测模型.首先,提出学习正电子发射型断层显像(PET)、计算机断层扫描(CT)和PET/CT不同模态语义信息的3分支网络;然后,设计跨模态交互式增强块充分学习多模态语义相关性,余弦重加权计算Transformer高效学习全局特征关系,交互式增强网络提取病灶的能力;最后,提出双分支轻量块,激活函数簇(ACON)瓶颈结构降低参数同时增加网络深度和鲁棒性,另一分支为密集连接的递进重参卷积,特征传递达到最大化,递进空间交互高效地学习多模态特征.在肺部肿瘤PET/CT多模态数据集中,该文模型获得94.76%mAP最优性能和3238 s最高效率,以及0.81 M参数量,较YOLOv5s和EfficientDet-d0降低7.7倍和5.3倍,多模态对比实验中总体上优于现有的先进方法,消融实验和热力图可视化进一步验证.

    YOLOv5跨模态交互式增强块双分支轻量块PET/CT多模态肺部肿瘤影像