首页期刊导航|中国科技论文
期刊信息/Journal information
中国科技论文
中国科技论文

李志民

月刊

2095-2783

lwzxbj@cutech.edu.cn

010-62514378,62514339

100080

北京市海淀区中关村大街35号教育部科技发展中心

中国科技论文/Journal Sciencepaper Online北大核心
查看更多>>《中国科技论文在线》(国际标准刊号ISSN 1673-7180,国内标准刊号:CN11-5484/N)是由教育部主管,教育部科技发展中心主办的学术刊物,主要报道工程与技术科学领域内具有重要意义和创新性的最新成果。由《中国科技论文在线》学报编辑部出版,月刊。国内外公开发行。自2006年8月创刊以来,已被“万方数据—数字化期刊群”、美国《化学文摘》(CA)、美国《剑桥文摘》、波兰《哥白尼索引》(IC)、美国《乌利希期刊指南》(UPD)等国内外多家权威性文摘期刊收录。
正式出版
收录年代

    单阶段实例分割——从局部到整体的网络结构研究综述

    周涛石道宗赵雅楠张祥祥...
    131-142页
    查看更多>>摘要:单阶段实例分割是近年来深度学习领域的研究热点,其通过将目标检测和目标分割并行的方式实现图像的实例级分割,该方法目前已被广泛应用于图像目标分割领域.首先,阐述了单阶段实例分割基本原理.然后,从局部和整体2个方面对单阶段实例分割的网络结构进行梳理,在局部网络结构方面,从特征提取、特征融合、特征预测3个方面进行归纳,其中,在特征预测部分,按照有锚框到无锚框的思路对目标边界框的生成方式进行分类,按照全局掩膜到局部掩膜的思路对目标掩膜的表示方式进行分类,全局掩膜包括原型系数方法、目标位置方法和目标边界方法,局部掩膜包括目标轮廓方法、目标位置方法和目标特征方法;在整体网络结构方面,对22个主流的网络结构进行总结.接着,归纳了单阶段实例分割在医学图像分割、视频图像分割、遥感图像分割等应用领域的发展现状.最后,对单阶段实例分割的发展方向进行展望.

    单阶段实例分割特征提取特征融合特征预测目标边界框目标掩膜

    ENSOMIM:一种新型ENSO时空预测模型

    方巍沙雨张霄智
    143-152,177页
    查看更多>>摘要:为了提高厄尔尼诺南方涛动(El Niño-southern oscillation,ENSO)预测的准确性,解决卷积核难以捕获ENSO的长距离前兆的问题,将ENSO预测视为一个时空序列预测问题,并提出一种基于注意力机制和循环神经网络的ENSO非稳态时空预测深度学习模型,称为ENSOMIM.该模型通过提出的新型注意力机制BGAM来局部和全局交互地学习空间特征,并使用高阶非线性时空网络对长期的时间序列特征进行编码.由于ENSO观测数据集样本数量少,为了更充分地训练模型,采用迁移学习的方法,使用历史模式模拟数据进行预训练再利用观测数据校正模型.实验结果表明,ENSOMIM更适合于大区域和长期的预测.在1984-2014年验证期间,ENSOMIM的Niño3.4指数的全季节相关性技巧比经典的卷积神经网络提高16%,均方误差降低17%,它可以为长达18个月的提前期提供有效预测,并且在23个月的提前期内相关技巧达到0.45.因此,ENSOMIM可以作为预测ENSO事件的有力工具.

    ENSO气候灾害时空序列预测深度学习神经网络

    基于改进Faster RCNN的金属丝网缺陷检测方法

    姜菲菲李宁邱翠翠刘大猛...
    153-159页
    查看更多>>摘要:作为一种传统的纺织产品,金属丝网在工业生产、日常生活、科研等领域起着举足轻重的作用,而金属丝网在编制过程中,表面会产生斑点、断线等缺陷,严重影响金属丝网的质量.为保障产品质量,研究了一种基于改进Faster RCNN算法的金属丝网表面缺陷检测方法.首先,为提高模型缺陷特征提取能力,特征提取网络选用深度残差网络(ResNet50)代替原视觉几何群网络(VGG16),并引入注意力模块;随后,训练过程中利用有预热的余弦退火学习率衰减机制,以提高网络检测精度;同时引入k-means算法和遗传算法,设计了更适合金属丝网数据集的锚框尺寸,以提高候选框的精度,解决缺陷定位不准的问题.经实验验证,利用改进Faster RCNN算法检测的平均精度均值(mean average precision,mAP)达86.95%,较原Faster RCNN算法提高18.81%,为金属丝网缺陷的检测提供了一个有效可行的方案.

    金属丝网FasterRCNN缺陷检测深度学习

    基于文字边缘失真特征的翻拍图像篡改定位

    陈昌盛陈自炜李锡劲
    160-168,199页
    查看更多>>摘要:针对翻拍文档图像的篡改定位问题,提出一种基于文字边缘失真特征的翻拍图像篡改定位方法.从文字边缘分布、边缘梯度以及待检测文本与参考文本在边缘梯度上的差异3个方面构建了文字失真特征,并训练了一个基于深度神经网络的分类器进行决策.同时,为了评估检测方法的性能,构建了一个包含120张合法图像、1 200张翻拍篡改文档图像的数据集.实验结果表明:所提出的方法在跨库实验场景下词汇级别的ROC曲线下面积(area under ROC curve,AUC)和等错误率(equal error rate,EER)分别达到了0.84和0.23;与Forensic Similarity(128×128)和DenseFCN相比,所提出的特征结合LightDenseNet的方法在翻拍篡改文档数据集的跨库协议下,词汇级别的AUC指标分别提高了0.06和0.17.

    文档图像翻拍攻击篡改定位文字边缘失真翻拍篡改文档数据库

    基于事件最大边界的密集视频描述方法

    陈劭武胡慧君刘茂福
    169-177页
    查看更多>>摘要:针对基于集合预测的密集视频描述方法由于缺乏显式的事件间特征交互且未针对事件间差异训练模型而导致的模型重复预测事件或生成语句雷同问题,提出一种基于事件最大边界的密集视频描述(dense video captioning based on event maximal margin,EMM-DVC)方法.事件边界是包含事件间特征相似度、事件在视频中时间位置的距离、生成描述多样性的评分.EMM-DVC通过最大化事件边界,使相似预测结果的距离远且预测结果和实际事件的距离近.另外,EMM-DVC引入事件边界距离损失函数,通过扩大事件边界距离,引导模型关注不同事件.在ActivityNet Captions数据集上的实验证明,EMM-DVC与同类密集视频描述模型相比能生成更具多样性的描述文本,并且与主流密集视频描述模型相比,EMM-DVC在多个指标上达到最优水平.

    密集视频描述多任务学习端到端模型集合预测

    知识图谱的双注意力机制推荐方法

    周北京王海荣王怡梦马赫...
    178-185,223页
    查看更多>>摘要:为解决知识图谱推荐方法中存在的忽略用户个人信息,或将用户和项目采用相同注意力机制,致使用户和项目的潜在语义表达不充分的问题,提出了一种知识增强的双注意力机制推荐方法.采用交叉压缩融合单元获取用户个人信息和交互历史的潜在特征,以增强用户特征表示;使用不同注意力机制关注用户和项目的重要邻居,以增强知识图谱中的结构信息和语义信息表示.为了验证方法的有效性,在MovieLens-1M、MovieLens-20M、Book-Crossing和Last.FM这4个数据集上进行实验,并与RippletNet、KGAT、CKAN等6种方法进行对比分析.结果表明,本文方法与RippletNet、KGCN、LKGR等方法相比,受试者工作特征曲线下面积(area under the receiver operator characteristic curve,AUC)性能平均提升了5.34%.

    知识图谱推荐方法知识增强双注意力机制

    基于双指导扩散模型的单样本图像域自适应

    张研博普园媛赵征鹏阳秋霞...
    186-192页
    查看更多>>摘要:为了避免现有的单样本图像域自适应算法在反转重建过程中丢失内容信息的现象,提出一种利用CLIP(contrastive language-image pretraining)和ViT(vision transformer)双指导扩散模型去噪、实现内容对齐的单样本图像域自适应算法.首先设计一种基于扩散模型的域反转算法,将位于目标域的图像通过预训练的扩散模型反转到源域,从而获得了内容相同但域信息不同的图像对.其次,将图像对映射到CLIP模型隐空间中,通过内容主导和域主导的2个方向分别顾及内容信息和域信息;同时,将图像对映射到ViT模型隐空间中,通过对比学习的方式分别约束内容信息和域信息.最后,使用条件化指导的去噪方式,实现任意源域图像到目标域的转换.此外,该算法也适用于未见域间转换和多属性编辑的任务.定性和定量的实验结果证明,该算法相对于其他先进算法在多个性能指标上提升2%~27%.

    单样本图像域自适应双指导扩散模型内容对齐域反转条件化指导去噪

    MNMPC:一种通过混合预测提升用户流媒体播放体验的方法

    陈铤沛张书豪袁一平向文馗...
    193-199页
    查看更多>>摘要:针对实际网络中网络吞吐率的变化有很大程度的随机性,引入了分析模型预测控制(model predictive control,MPC)方法.通过对历史数据规律进行归纳总结并且将历史数据估计方法作为深度预测模块的补充,提出了一种多层感知的深度预测模块.相对于同期最佳模型,所提模型能够提高11%的预测准确度.将所提模型在真实网络中进行实验验证,结果表明,所提供的方法能够有效提升视频质量并降低重缓冲概率,从而提升用户体验.

    自适应比特率神经网络模型预测控制用户体验质量(QoE)

    基于双向特征金字塔的密集视频描述生成方法

    张煜杨刘茂福
    200-208页
    查看更多>>摘要:针对当前方法普遍存在较为严重的细节结构信息丢失与事件间重叠的问题,提出一种基于双向特征金字塔的密集视频描述生成方法(dense video captioning with bilateral feature pyramid net,BFPVC).BFPVC通过带有自底向上、自顶向下、横向链接3条分支的双向特征金字塔强化视频多尺度特征图,兼顾对时序信息、空间信息、语义信息的特征表示,解码器从强化后的视频特征中捕获更加全面的事件候选集,从而为对应的视频事件生成更加丰富、详尽的文本描述.在ActivityNet Captions数据集和YouCook2数据集上的实验结果表明,BFPVC与同类模型相比生成的文本描述更详细、丰富,验证了双向特征金字塔在密集视频描述领域的有效性.

    密集视频描述视频描述视频理解特征金字塔自然语言处理

    基于改进YOLOv5算法的红外图像行人目标检测

    高正中于明沆孟晗殷秀程...
    209-214页
    查看更多>>摘要:针对红外图像中行人检测算法准确率低、漏检等问题,提出了一种基于改进YOLOv5s的红外行人目标检测方法.首先,利用Transformer编码结构替换C3模块中的Bottleneck结构,以加强检测网络的特征融合能力;其次,利用递归门控卷积gnConv对视觉感受野模块RFB进行改进,并在YOLOv5s头部检测网络前加入改进的RF-gnConv模块,以提高模型对各种复杂场景行人检测的适应力;最后,利用OTCBVS数据集对算法模型进行验证.结果显示:改进后的算法模型平均精度均值达到97.3%,检测速度为63帧/s,验证了改进算法对红外图像中行人检测的有效性.

    红外图像行人检测深度学习视觉感受野