首页期刊导航|北京交通大学学报
期刊信息/Journal information
北京交通大学学报
北京交通大学
北京交通大学学报

北京交通大学

孙守光

双月刊

1673-0291

bfxb@bjtu.edu.cn

010-51688053

100044

北京西直门外上园村3号

北京交通大学学报/Journal Journal of Beijing Jiaotong UniversityCSCD北大核心CSTPCD
查看更多>>本刊是理工类综合性学术刊物,主要刊登北京交通大学的通信工程、交通信号控制、光纤技术、信息工程、计算机技术和软件及应用、土木工程、桥梁工程、建筑学、机械与电子控制、铁道机车车辆、电气工程、交通运输工程、运输管理,及应用数学物理化学等。读者对象为从事理论研究、工程开发的科研人员及相应的管理人员、有关高校的教师、研究生等。
正式出版
收录年代

    基于域适应的图像语义分割综述

    刘美琴王子麟
    1-9页
    查看更多>>摘要:随着深度学习技术的迅速发展,语义分割算法在性能提升的同时依赖于大规模成对图像数据及其耗时耗力的像素级标注.人工制作的合成图像以规模大、易标注的特点,替代真实图像有效降低了训练成本.然而,合成图像与真实图像的域间差异性降低了分割网络的泛化能力.针对域间差异问题,研究者提出域适应语义分割(Domain Adaptive Semantic Segmentation,DASS)算法.该算法通过提取合成图像与真实图像的跨域共享知识,减小域间差异,提升分割网络在真实图像上的泛化能力.本文根据网络结构对主流DASS算法进行分类,分析了不同算法的性能对比结果,并提出未来研究方向.研究结果表明:早期的DASS算法利用生成对抗网络对齐源域和目标域的边缘分布,但网络结构复杂,并且只能实现两域的全局对齐,无法实现不同类别之间的精细对齐,性能较低;后续算法逐渐转向自训练网络结构,利用预训练的分割网络在目标域生成伪标签,为下一轮训练提供监督,结构简单,性能表现优于早期算法;随着Transformer网络的出现,其强大的特征提取能力进一步提升了DASS算法的准确性.

    图像语义分割深度学习域适应语义分割生成对抗网络自训练网络

    基于深度学习的半监督语义分割综述

    孙博远刘夏雷侯淇彬
    10-22页
    查看更多>>摘要:语义分割在诸多现实领域有丰富的应用,但是其训练过程需要大量像素级别标注图像,训练成本较高.半监督语义分割可以在仅使用少量标注图像和大量无标注图像的情况下进行训练,更贴近现实场景,受到国内外的广泛关注.本文分析和总结了近年基于深度学习的半监督语义分割的相关研究,对现有方法进行分类讨论.首先,介绍了半监督语义分割中使用最广泛的基准数据集,以及常用的实验设定和评价指标.其次,从基于对抗学习、基于多网络架构、基于多阶段架构以及单阶段端到端架构4个方面对基于深度学习的半监督语义分割算法进行了梳理和归类.再次,在不同数据集主流基准下对多种代表性方法进行公平对比实验.最后,从基础模型结构、单阶段端到端方法的潜在能力、有标签数据的长尾分布问题以及与先进大模型结合等方面,对半监督语义分割任务面临的挑战以及可能的未来研究方向进行了讨论.

    半监督语义分割卷积神经网络对抗学习自学习

    图文跨模态检索研究综述

    张振兴王亚雄
    23-36页
    查看更多>>摘要:图文跨模态检索作为跨模态计算研究的一个核心课题,一直受到学术界和工业界的高度重视.在过去的几十年里,随着深度学习技术的发展,特别是深度神经网络、Transformer架构以及图文对比学习等关键技术的广泛应用与革新,图文跨模态检索领域取得了显著的进展和突破.本文在系统梳理图文跨模态检索的发展轨迹的基础上,重点关注其建模过程中的5个关键步骤,即训练数据准备、数据输入形式设计、图文特征抽取机制的选择、图文建模方法的选择以及优化目标的确立.为客观评估现有模型在跨模态检索任务上的性能水平,在多个权威的标注评测数据集上比较各类模型的表现,以揭示当前跨模态检索方法的实际效能边界.通过对各关键步骤发展历程的分析与总结,结合当前图文跨模态检索领域的研究成果,对未来跨模态学习的发展趋势做出预测与展望.研究结果表明:尽管当前的图文跨模态检索技术已取得显著进步,但仍存在进一步提升的空间和潜力,研究者可从精细化检索、经济的预训练方法、新的图文交互方式、AIGC赋能的图文预训练4个方向进行改进.

    图文检索跨模态学习深度学习注意力机制

    基于编解码多尺度特征优化的图像去雾算法

    邵小桃郭燕申艳钱满义...
    37-46,56页
    查看更多>>摘要:真实雾气不均匀分布的特点会导致基于合成数据集训练的网络对真实雾气下拍摄的图像的复原质量不佳.此外,现有去雾模型较大的网络参数量会影响去雾的实时性.针对这两个问题,提出一种参数量较低的基于编解码多尺度特征优化的图像去雾算法以去除真实场景下图像的雾气.首先,在编码部分利用跨通道上下文注意力隐式地建模像素间的关系,以恢复去雾后图像中物体的结构.然后,设计信息调节子网弥补编码器遗漏的浅层信息,解决细节恢复粗糙的问题.最后,在解码部分设计特征矫正子网,采用相减式残差结构减少噪声,保证输出结果的正确性.在多种真实雾数据集上,对所提方法的普适性进行实验.实验结果表明:在REVIDE真实雾数据集中,与MSBDN方法相比,所提方法在参数量降低46% 的基础上获得了PSNR 1.25dB的提升;在O-Haze、I-Haze以及RTTS多种室内外真实雾测试集中,与其他去雾方法相比,所提方法都取得了更好的PSNR结果和视觉效果.

    信号与信息处理图像去雾深度学习真实雾编解码

    X光安检图像目标识别特性分析

    孙运达孙嘉龙
    47-56页
    查看更多>>摘要:X光扫描是对安检过程中通过的包裹进行违禁品检查的重要成像手段,而传统的人工识图方式具有效率低、易受主观因素影响等缺陷.为推动违禁品自动识别技术的发展,从数据、任务和方法3个层面对X光图像识别特性递进分析.在数据层面,通过对X光与可见光的数据和数据集分别进行对比,揭示了X光安检图像在数据上的独特性.在任务层面,从数据特性、行业监管和实际业务要求等多个维度深入分析X光安检图像目标识别任务的复杂性.在方法层面,基于数据与任务特性,对现有X光安检图像目标识别的特定方法策略进行归类和简述.研究结果表明:X光安检图像目标识别技术需要应对数据特性导致的困境,适应行业监管的变化,处理安检对象特点的差异,以及满足细粒度的监管要求;在应对部分特性带来的挑战时,数据预处理、数据扩充、重叠遮挡处理和多视角融合等有效策略被提出,并存在可能的提升空间和拓展方向.研究结果能够为本领域研究人员提供参考和启发,以更好地满足持续变化的安检任务要求.

    X光安检图像处理目标识别违禁品查验

    双主干伪装目标检测网络

    史彩娟赵琳任弼娟张昆...
    57-67页
    查看更多>>摘要:针对伪装目标检测任务中存在检测精度有限的问题,通过引入双主干网络增加差异化信息,提出一种双主干伪装目标检测网络(Dual Backbone Network,DBNet).设计了双主干特征融合模块、边缘注意力模块和逐级细化模块.双主干特征融合模块将Res2Net50和PVT v2对原始图像提取的多级特征进行有效融合,获取丰富的全局上下文信息和局部上下文信息;边缘注意力模块根据生成的边缘预测图进一步计算边缘注意力图,使网络更加关注伪装目标的边缘细节;在逐级细化模块中,上一层的预测图和特征与当前层的特征依次经过粗预测细化结构和交叉查询注意力结构,该模块在标签监督下能够提供逐渐精确和细化的预测结果.研究结果表明:在CAMO数据集,DB-Net的Sα、Fωβ和Eϕ分别为0.877、0.838和0.932,MAE为0.042;在COD10K数据集,DBNet的MAE和Eϕ分别为0.022和0.932;在NC4K数据集,Fωβ和MAE分别为0.843和0.031.所提网络DBNet的检测性能优于其他23个伪装目标检测网络,所设计的3个模块能够有效提升网络对伪装目标的检测能力.

    伪装目标检测双主干网络边缘注意力逐级细化

    人体图像精细化解析方法在语义边缘的性能评测与分析

    宫琪琦赵耀
    68-75页
    查看更多>>摘要:人体图像精细化解析旨在为输入的人体图像进行像素级分类,属于细粒度的图像语义分割任务,由于具有广阔的应用场景,在近10年受到了研究者的关注,相关技术得以迅速发展.本文重点研究现有人体图像解析精细化模型对人体图像语义边缘的预测性能.首先,总结现有人体图像数据集,对比数据集在规模和标注类别方面的差异;其次,根据模型原理性差异,从通用图像语义分割、辅助信息引导、高分辨率特征增益和标签降噪4个方面对现有人体解析方法进行梳理和分类;再次,针对现有评估指标对于语义边缘区域预测能力敏感度不足的问题,构建新的评估指标,即平均边缘交并比(mean Boundary Intersection over Union,mBIoU),并用于对现有模型的评估,从数值上对比各方法的性能差异;最后,展望了人体解析未来的发展方向.研究结果表明:平均边缘交并比相较于现有指标能够更好地区分模型在语义边缘区域预测性能的差异,对人体图像精细化解析模型解决人体解析任务特有挑战的能力具有良好的评估作用,有利于未来算法的开发与性能评估.

    计算机视觉图像语义分割人体图像精细化解析语义边缘区域性能

    基于改进YOLOv8的地铁站内乘客异常行为感知

    安俊峰刘吉强卢萌萌李罡...
    76-89页
    查看更多>>摘要:当地铁站内乘客出现异常行为时,若未能及时发现可能会引起乘客不满、投诉,甚至导致安全问题,从而影响运营效率,造成恶劣影响.而当前常用的盯控视频画面的方式存在容易遗漏和效率低的问题.为及时感知异常行为,提出一种云边协同的异常行为感知总体架构.首先,通过人工演绎的方法在地铁站内采集异常行为图像,构造包含11种异常行为的数据集;其次,针对边/端侧能够自主训练和推理但算力较小的特点,提出模型压缩算法,构建MINI-BLOCK模块并将其组合为i-C2f模块,用于替换YOLOv8中的C2f模块;再次,针对云侧计算资源集中的特点,分别构建2个基于YOLOv8的改进模型,即ModelA和ModelB,ModelA的架构为"DCNv2_Dynamic-BiFPN-EMA",ModelB的架构为"DCNv2-BiFPN-EMA";最后,在构造的数据集上,对提出的3种优化模型与YOLOv8进行对比实验.研究结果表明:相较于YOLOv8,3种优化模型均取得了更优的检测性能,边/端侧模型的精确率提升了1.0%,模型参数降低了4.7%;ModelA的召回率、mAP50、mAP50:95分别提升了2.2%、3.7%、2.9%;ModelB的召回率、mAP50、mAP50:95分别提升了5.8%、6.7%、2.8%.研究结果能够为地铁乘客异常行为感知的相关研究提供参考.

    异常行为云边协同行为感知模型压缩YOLOv8

    面向隐写算法失配的小样本图像隐写分析方法

    赖鸣姝翁韶伟田华伟
    90-101页
    查看更多>>摘要:在实际的隐写分析应用场景中,待测隐写算法大多是未知的,难以获得足量带标记的样本,从而导致隐写算法失配问题.为提升在隐写算法未知且仅有少量标记图像时隐写分析的检测性能,提出新型隐写分析网络BTONet.首先,提出结合瓶颈注意力机制的改进SRNet,即BAMS-RNet,作为BTONet的特征提取模块,从空间维度和通道维度对纹理区域进行关注,解决小样本环境下直接使用SRNet会导致检测性能不佳的问题,在带标记图像数量极少的情况下提取有辨识性的特征.然后,将正交投影损失和交叉熵损失有机结合,从特征和预测标签2个角度强化不同类别之间的正交性,提升分类模块的性能.最后,在隐写算法失配的情况下,将BTONet与4个经典空域深度隐写分析算法进行检测准确率、训练时长、测试时长和算法稳定性等方面的比较,并进行消融实验.实验结果表明:相较于目前先进的基于深度学习的隐写分析方法,BTONet在小样本环境下能够取得更优的检测性能,检测性能提升了1.02%~10.35%;同时取得了极佳的稳定性,将检测准确率方差降低至其他隐写算法的1/60~1/20.

    隐写分析瓶颈注意力机制正交投影损失小样本学习

    面向失配的图像隐写分析研究进展

    李芸伟张祝薇于丽芳曹鹏...
    102-114页
    查看更多>>摘要:尽管隐写分析在实验室环境下取得了显著的进步,但是在实际应用中,由于训练集和测试集的载体来源、隐写算法和嵌入率经常不同,导致隐写分析器性能下降,这种现象称为失配,严重阻碍了隐写分析的实际应用.因此,对目前面向失配问题的主要隐写分析方法进行了分析与总结.根据解决失配问题的思路,将现有失配隐写分析方法分为3类,即设计训练集、取证辅助和无监督领域适应,并对各类方法进行梳理和对比.基于对比结果,探讨了当前基于无监督领域适应的深度隐写分析模型面临的挑战以及未来的发展方向.研究结果表明:基于无监督领域适应的深度隐写分析模型是目前解决失配问题的最有效方案,领域对齐、中间域桥接、对抗学习等是设计该类深度隐写分析模型的主流思想;引入类别等细粒度信息以提高基于无监督领域适应的深度隐写分析模型的性能是未来研究的方向;针对不平衡样本及单/小样本等更恶劣的失配问题的解决方案仍待进一步探索.

    隐写分析深度学习失配无监督领域适应