首页期刊导航|中国图象图形学报
期刊信息/Journal information
中国图象图形学报
中国图象图形学报

李小文

月刊

1006-8961

jig@irsa.ac.cn

010-64807995 8261442

100101

北京9718信箱

中国图象图形学报/Journal Journal of Image and GraphicsCSCD北大核心CSTPCD
查看更多>>本刊是集计算机图象图形高科技理论与应用研究成果、成果产品化与商情动态于一体的综合性学术期刊。是核心期刊、权威性杂志。作为中国图象图形学学会的会刊,利用学会在国内外广泛的科技信息渠道、全方位多层面的学科交叉应用,积极向产业界宣传科技成果,热心向科技界推荐最新产品。
正式出版
收录年代

    多模态零样本人体动作识别

    吕露露黄毅高君宇杨小汕...
    1658-1667页
    查看更多>>摘要:目的 在人体行为识别算法的研究领域,通过视频特征实现零样本识别的研究越来越多.但是,目前大部分研究是基于单模态数据展开的,关于多模态融合的研究还较少.为了研究多种模态数据对零样本人体动作识别的影响,本文提出了一种基于多模态融合的零样本人体动作识别(zero-shot human action recognition framework based on multimodel fusion,ZSAR-MF)框架.方法 本文框架主要由传感器特征提取模块、分类模块和视频特征提取模块组成.具体来说,传感器特征提取模块使用卷积神经网络(convolutional neural network,CNN)提取心率和加速度特征;分类模块利用所有概念(传感器特征、动作和对象名称)的词向量生成动作类别分类器;视频特征提取模块将每个动作的属性、对象分数和传感器特征映射到属性—特征空间中,最后使用分类模块生成的分类器对每个动作的属性和传感器特征进行评估.结果 本文实验在Stanford-ECM数据集上展开,对比结果表明本文ZSAR-MF模型比基于单模态数据的零样本识别模型在识别准确率上提高了4%左右.结论 本文所提出的基于多模态融合的零样本人体动作识别框架,有效地融合了传感器特征和视频特征,并显著提高了零样本人体动作识别的准确率.

    零样本多模态融合动作识别传感器数据视频特征

    足球视频球员感知跟踪算法

    冯思佳宋子恺于俊清何云峰...
    1668-1680页
    查看更多>>摘要:目的 足球比赛视频中的球员跟踪算法为足球赛事分析提供基础的数据支持.但足球比赛中球员跟踪存在极大的挑战:球员进攻、防守和争夺球权时,目标球员可能产生快速移动、严重遮挡和周围出现若干名干扰球员的情况,目前仍没有一种能够完美解决足球比赛中球员跟踪问题的算法.因此如何解决足球场景中的困难,提升球员跟踪的准确度,成为当前研究的热点问题.方法 本文在分析足球比赛视频中球员目标特点的基础上,通过融合干扰项感知的颜色模型和目标感知的深度模型,提出并设计了一种球员感知的跟踪算法.干扰项感知的颜色模型分别提取目标、背景和干扰项的颜色直方图,利用贝叶斯公式得到搜索区域中每个像素点属于目标的似然概率.目标感知的深度模型利用孪生网络计算搜索区域与目标的相似度.针对跟踪漂移问题,使用全局跟踪器和局部跟踪器分别跟踪目标整体和目标上半身,并且在两个跟踪器的跟踪结果出现较大差异的时候分析跟踪器有效性并进行定位修正.结果 在公共的足球数据集上将本文算法与10个其他跟踪算法进行对比实验,同时对于文本算法进行了局部跟踪器的消融实验.实验结果表明,球员感知跟踪算法的平均有效重叠率达到了 0.560 3,在存在同队球员和异队球员干扰的情况下,本文算法比排名第2的算法的有效重叠率分别高出3.7%和6.6%,明显优于其他算法,但是由于引入了干扰项感知的颜色模型、目标感知的深度模型以及局部跟踪器等模块增加了算法的时间复杂度,导致本文算法跟踪速度较慢.结论 本文总结了跟踪算法的整体流程并分析了实验结果,认为干扰项感知、目标感知和局部跟踪这3个策略在足球场景中的球员跟踪问题中起到了重要的作用,为未来在足球球员跟踪领域研究的继续深入提供了参考依据.

    计算机视觉图像处理目标跟踪足球球员跟踪干扰项感知目标感知局部跟踪

    融合时空图卷积的多人交互行为识别

    成科扬吴金霞王文杉荣兰...
    1681-1691页
    查看更多>>摘要:目的 多人交互行为的识别在现实生活中有着广泛应用.现有的关于人类活动分析的研究主要集中在对单人简单行为的视频片段进行分类,而对于理解具有多人之间关系的复杂人类活动的问题还没有得到充分的解决.方法 针对多人交互动作中两人肢体行为的特点,本文提出基于骨架的时空建模方法,将时空建模特征输入到广义图卷积中进行特征学习,通过谱图卷积的高阶快速切比雪夫多项式进行逼近.同时对骨架之间的交互信息进行设计,通过捕获这种额外的交互信息增加动作识别的准确性.为增强时域信息的提取,创新性地将切片循环神经网络(recurrent neural network,RNN)应用于视频动作识别,以捕获整个动作序列依赖性信息.结果 本文在UT-Interaction数据集和SBU数据集上对本文算法进行评估,在UT-Interaction数据集中,与H-LSTCM(hierarchical long short-term concurrent memory)等算法进行了比较,相较于次好算法提高了0.7%,在SBU数据集中,相较于GC-NConv(semi-supervised classification with graph convolutional networks)、RotClips+MTCNN(rotating cliips+multi-task convolutional neural netowrk)、SGC(simplifying graph convolutional)等算法分别提升了 5.2%、1.03%、1.2%.同时也在SBU数据集中进行了融合实验,分别验证了不同连接与切片RNN的有效性.结论 本文提出的融合时空图卷积的交互识别方法,对于交互类动作的识别具有较高的准确率,普遍适用于对象之间产生互动的行为识别.

    动作识别交互信息时空建模图卷积切片循环神经网络(RNN)

    时序特征融合的视频实例分割

    黄泽涛刘洋于成龙张加佳...
    1692-1703页
    查看更多>>摘要:目的 随着移动互联网和人工智能的蓬勃发展,海量的视频数据不断产生,如何对这些视频数据进行处理分析是研究人员面临的一个挑战性问题.视频中的物体由于拍摄角度、快速运动和部分遮挡等原因常常表现得模糊和多样,与普通图像数据集的质量存在不小差距,这使得对视频数据的实例分割难度较大.目前的视频实例分割框架大多依靠图像检测方法直接处理单帧图像,通过关联匹配组成同一目标的掩膜序列,缺少对视频困难场景的特定处理,忽略对视频时序信息的利用.方法 本文设计了一种基于时序特征融合的多任务学习视频实例分割模型.针对普通视频图像质量较差的问题,本模型结合特征金字塔和缩放点积注意力机制,在时间上把其他帧检测到的目标特征加权聚合到当前图像特征上,强化了候选目标的特征响应,抑制背景信息,然后通过融合多尺度特征丰富了图像的空间语义信息.同时,在分割网络模块增加点预测网络,提升了分割准确度,通过多任务学习的方式实现端到端的视频物体同时检测、分割和关联跟踪.结果 在YouTube-VIS验证集上的实验表明,与现有方法比较,本文方法在视频实例分割任务上平均精度均值提高了 2%左右.对比实验结果证明提出的时序特征融合模块改善了视频分割的效果.结论 针对当前视频实例分割工作存在的忽略对视频时序上下文信息的利用,缺少对视频困难场景进行处理的问题,本文提出融合时序特征的多任务学习视频实例分割模型,提升对视频中物体的分割效果.

    计算机视觉实例分割视频实例分割缩放点积注意力多尺度融合

    多尺度深度特征提取的肝脏肿瘤CT图像分类

    毛静怡宋余庆刘哲
    1704-1715页
    查看更多>>摘要:目的 肝脏肿瘤是人体最具侵袭性的恶性肿瘤之一,传统的肿瘤诊断依靠观察患者的CT(computed tomo-graphy)图像,工作量大时易造成疲劳,难免会产生误诊,为此使用计算机辅助的方法进行诊断,但现有的深度学习方法中存在肿瘤分类准确率低、网络的特征表达能力和特征提取能力较弱等问题.对此,本文设计了一种多尺度深度特征提取的分类网络模型.方法 首先在原始CT图像中选取感兴趣区域,然后根据CT图像的头文件进行像素值转换,并进行数据增强来扩充构建数据集,最后将处理后的数据输入到本文提出的分类网络模型中输出分类结果.该网络通过多尺度特征提取模块来提取图像的多尺度特征并增加网络的感受野,使用深度特征提取模块降低背景噪声信息,并着重关注病灶区域有效特征,通过集成并行的空洞卷积使得尺度多元化,并将普通卷积用八度卷积替换来减少参数量,提升分类性能,最终实现了对肝脏肿瘤的精确分类.结果 本文模型达到了 87.74%的最高准确率,比原始模型提升了 9.92%;与现有主流分类网络进行比较,多项评价指标占优,达到了 86.04%的召回率,87%的精准率,86.42%的F1分数;此外,通过消融实验进一步验证了所提方法的有效性.结论 本文方法可以较为准确地对肝脏肿瘤进行分类,将此方法结合到专业的医疗软件当中去,能够为医生早期的诊断和治疗提供可靠依据.

    深度学习肝脏肿瘤分类多尺度特征特征提取空洞卷积

    3D多尺度深度卷积神经网络肺结节检测

    孙华聪彭延军郭燕飞张晓庆...
    1716-1725页
    查看更多>>摘要:目的 肺结节是肺癌的早期存在形式.低剂量CT(computed tomogragphy)扫描作为肺癌筛查的重要检查手段,已经大规模应用于健康体检,但巨大的CT数据带来了大量工作,随着人工智能技术的快速发展,基于深度学习的计算机辅助肺结节检测引起了关注.由于肺结节尺寸差别较大,在多个尺度上表示特征对结节检测任务至关重要.针对结节尺寸差别较大导致的结节检测困难问题,提出一种基于深度卷积神经网络的胸部CT序列图像3D多尺度肺结节检测方法.方法 包括两阶段:1)尽可能提高敏感度的结节初检网络;2)尽可能减少假阳性结节数量的假阳性降低网络.在结节初检网络中,以组合了压缩激励单元的Res2Net网络为骨干结构,使同一层卷积具有多种感受野,提取肺结节的多尺度特征信息,并使用引入了上下文增强模块和空间注意力模块的区域推荐网络结构,确定候选区域;在由Res2Net网络模块和压缩激励单元组成的假阳性降低网络中对候选结节进一步分类,以降低假阳性,获得最终结果.结果 在公共数据集LUNA16(lung nodule analysis 16)上进行实验,实验结果表明,对于结节初检网络阶段,当平均每例假阳性个数为22时,敏感度可达到0.983,相比基准ResNet+FPN(feature pyramid network)方法,平均敏感度和最高敏感度分别提高了 2.6%和0.8%;对于整个3D多尺度肺结节检测网络,当平均每例假阳性个数为1时,敏感度为0.924.结论 与现有主流方案相比,该检测方法不但提高了肺结节检测的敏感度,还有效地控制了假阳性,取得了更优的性能.

    肺结节检测卷积神经网络(CNN)多尺度区域推荐网络上下文增强空间注意力假阳性降低

    结合多通道注意力的糖尿病性视网膜病变分级

    顾婷菲郝鹏翼白琮柳宁...
    1726-1736页
    查看更多>>摘要:目的 糖尿病性视网膜病变(diabetic retinopathy,DR)是一种常见的致盲性视网膜疾病,需要患者在早期就能够被诊断并接受治疗,否则将会造成永久性的视力丧失.能否检测到视网膜图像中的微小病变如微血管瘤,是糖尿病性视网膜病变分级的关键.然而这些病变过于细小导致使用一般方法难以正确地辨别.为了解决这一问题,本文提出了一种基于多通道注意力选择机制的细粒度分级方法(fine-grained grading method based on multi-channel attention selection,FGMAS)用于糖尿病性视网膜病变的分级.方法 该方法结合了细粒度分类方法和多通道注意力选择机制,通过获取局部特征提升分级的准确度.此外考虑到每一层通道特征信息量与分类置信度的关系,本文引入了排序损失以优化每一层通道的信息量,用于获取更加具有信息量的局部区域.结果 使用两个公开的视网膜数据集(Kaggle和Messidor)来评估提出的细粒度分级方法和多通道注意力选择机制的有效性.实验结果表明:FGMAS在Kaggle数据集上进行的五级分类任务中相较于现有方法,在平均准确度(average of classifica-tion accuracy,ACA)上取得了 3.4%~10.4%的提升.尤其是对于病变点最小的1级病变,准确率提升了 11%~18.9%.此外,本文使用FGMAS在Messidor数据集上进行二分类任务.在推荐转诊/不推荐转诊分类上FGMAS得到的准确度(accuracy,Acc)为0.912,比现有方法提升了 0.1%~1.9%,同时AUC(area under the curve)为0.962,比现有方法提升了 0.5%~9.9%;在正常/不正常分类上FGMAS得到的准确度为0.909,比现有方法提升了2.9%~8.8%,AUC为0.950,比现有方法提升了 0.4%~8.9%.实验结果表明,本文方法在五分类和二分类上均优于现有方法.结论 本文所提细粒度分级模型,综合了细粒度提取局部区域的思路以及多通道注意力选择机制,可以获得较为准确的分级结果.

    糖尿病性视网膜病变(DR)病变分级细粒度分级深度学习多通道注意力选择机制局部特征提取