首页期刊导航|中国图象图形学报
期刊信息/Journal information
中国图象图形学报
中国图象图形学报

李小文

月刊

1006-8961

jig@irsa.ac.cn

010-64807995 8261442

100101

北京9718信箱

中国图象图形学报/Journal Journal of Image and GraphicsCSCD北大核心CSTPCD
查看更多>>本刊是集计算机图象图形高科技理论与应用研究成果、成果产品化与商情动态于一体的综合性学术期刊。是核心期刊、权威性杂志。作为中国图象图形学学会的会刊,利用学会在国内外广泛的科技信息渠道、全方位多层面的学科交叉应用,积极向产业界宣传科技成果,热心向科技界推荐最新产品。
正式出版
收录年代

    《中国图象图形学报》多媒体智能专刊简介

    朱文武黄庆明黄华蒋树强...
    2549-2550页

    多媒体智能:当多媒体遇到人工智能

    朱文武王鑫田永鸿高文...
    2551-2573页
    查看更多>>摘要:过去10年中涌现出大量新兴的多媒体应用和服务,带来了很多可以用于多媒体前沿研究的多媒体数据.多媒体研究在图像/视频内容分析、多媒体搜索和推荐、流媒体服务和多媒体内容分发等方向均取得了重要进展.与此同时,由于在深度学习领域所取得的重大突破,人工智能(artificial intelligence,AI)在20世纪50年代被正式视为一门学科之后,迎来了一次"新"的发展浪潮.因此,一个问题就自然而然地出现了:当多媒体遇到人工智能时会带来什么?为了回答这个问题,本文通过研究多媒体和人工智能之间的相互影响引入了多媒体智能的概念.从两个方面探讨多媒体与人工智能之间的相互影响:一是多媒体促使人工智能向着更具可解释性的方向发展;二是人工智能反过来为多媒体研究注入了新的思维方式.这两个方面形成了一个良性循环,多媒体和人工智能在其中不断促进彼此发展.本文对相关研究及进展进行了讨论,并围绕值得进一步探索的研究方向分享见解.希望可以对多媒体智能的未来发展带来新的研究思路.

    多媒体技术人工智能(AI)多媒体智能多媒体推理可解释人工智能

    视觉知识:跨媒体智能进化的新支点

    杨易庄越挺潘云鹤
    2574-2588页
    查看更多>>摘要:回顾跨媒体智能的发展历程,分析跨媒体智能的新趋势与现实瓶颈,展望跨媒体智能的未来前景.跨媒体智能旨在融合多来源、多模态数据,并试图利用不同媒体数据间的关系进行高层次语义理解与逻辑推理.现有跨媒体算法主要遵循了单媒体表达到多媒体融合的范式,其中特征学习与逻辑推理两个过程相对割裂,无法综合多源多层次的语义信息以获得统一特征,阻碍了推理和学习过程的相互促进和修正.这类范式缺乏显式知识积累与多级结构理解的过程,同时限制了模型可信度与鲁棒性.在这样的背景下,本文转向一种新的智能表达方式——视觉知识.以视觉知识驱动的跨媒体智能具有多层次建模和知识推理的特点,并易于进行视觉操作与重建.本文介绍了视觉知识的3个基本要素,即视觉概念、视觉关系和视觉推理,并对每个要素展开详细讨论与分析.视觉知识有助于实现数据与知识驱动的统一框架,学习可归因可溯源的结构化表达,推动跨媒体知识关联与智能推理.视觉知识具有强大的知识抽象表达能力和多重知识互补能力,为跨媒体智能进化提供了新的有力支点.

    跨媒体智能视觉知识视觉概念视觉关系视觉推理

    面向海洋的多模态智能计算:挑战、进展和展望

    聂婕左子杰黄磊王志刚...
    2589-2610页
    查看更多>>摘要:海洋是高质量发展的要地,海洋科学大数据的发展为认知和经略海洋带来机遇的同时也引入了新的挑战.海洋科学大数据具有超多模态的显著特征,目前尚未形成面向海洋领域特色的多模态智能计算理论体系和技术框架.因此,本文首次从多模态数据技术的视角,系统性介绍面向海洋现象/过程的智能感知、认知和预知的交叉研究进展.首先,通过梳理海洋科学大数据全生命周期的阶段演进过程,明确海洋多模态智能计算的研究对象、科学问题和典型应用场景.其次,在海洋多模态大数据内容分析、推理预测和高性能计算3个典型应用场景中展开现有工作的系统性梳理和介绍.最后,针对海洋数据分布和计算模式的差异性,提出海洋多模态大数据表征建模、跨模态关联、推理预测以及高性能计算4个关键科学问题中的挑战,并提出未来展望.

    海洋大数据多模态海洋多媒体内容分析海洋知识图谱海洋大数据预测海洋高性能计算海洋目标重识别

    基于深度学习的人—物交互关系检测综述

    廖越李智敏刘偲
    2611-2628页
    查看更多>>摘要:人—物交互关系检测旨在通过精细化定位图像或视频中产生特定动作行为的人,以及与其产生交互关系的物体,并识别人和物体之间的动作关系来理解和分析人体的行为.人—物交互关系检测是一个非常具有实际应用意义和前瞻性的研究方向,是高层视觉理解的关键基石.随着深度学习的发展,基于深度学习的研究方法引领了近期人—物交互关系检测研究的进步.本文一方面分析空域人—物交互关系检测任务,从数据内容场景、标注粒度两个方面总结和分析当下数据库和基准.然后从两阶段分段式方法和单阶段端到端式方法两个流派出发系统性地阐述当前检测方法的发展现状,分析两个流派方法的特性和优劣,厘清该领域方法的发展路线.其中,两阶段方法包括多流模型和图模型两种主要范式,而单阶段模型包括基于框的范式、基于关系点的范式和基于查询的范式.另一方面,对时空域人—物交互关系检测任务进行总结,分析现有时空域交互关系数据集构造与特性和现有基线算法的优劣.最后对未来的研究方向进行展望.

    人—物交互关系(HOI)检测行为理解深度学习目标检测关系检测

    人类面部重演方法综述

    刘锦陈鹏王茜付晓蒙...
    2629-2651页
    查看更多>>摘要:随着计算机视觉领域图像生成研究的发展,面部重演引起广泛关注,这项技术旨在根据源人脸图像的身份以及驱动信息提供的嘴型、表情和姿态等信息合成新的说话人图像或视频.面部重演具有十分广泛的应用,例如虚拟主播生成、线上授课、游戏形象定制、配音视频中的口型配准以及视频会议压缩等,该项技术发展时间较短,但是涌现了大量研究.然而目前国内外几乎没有重点关注面部重演的综述,面部重演的研究概述只是在深度伪造检测综述中以深度伪造的内容出现.鉴于此,本文对面部重演领域的发展进行梳理和总结.本文从面部重演模型人手,对面部重演存在的问题、模型的分类以及驱动人脸特征表达进行阐述,列举并介绍了训练面部重演模型常用的数据集及评估模型的评价指标,对面部重演近年研究工作进行归纳、分析与比较,最后对面部重演的演化趋势、当前挑战、未来发展方向、危害及应对策略进行了总结和展望.

    人工智能(AI)计算机视觉深度学习生成对抗网络(GAN)深度伪造面部重演

    视觉语言多模态预训练综述

    张浩宇王天保李孟择赵洲...
    2652-2682页
    查看更多>>摘要:在多模态机器学习领域,为特定任务而制作的人工标注数据昂贵,且不同任务难以进行迁移,从而需要大量重新训练,导致训练多个任务时效率低下、资源浪费.预训练模型通过以自监督为代表的方式进行大规模数据训练,对数据集中不同模态的信息进行提取和融合,以学习其中蕴涵的通用知识表征,从而服务于广泛的相关下游视觉语言多模态任务,这一方法逐渐成为人工智能各领域的主流方法.依靠互联网所获取的大规模图文对与视频数据,以及以自监督学习为代表的预训练方法的进步,视觉语言多模态预训练模型在很大程度上打破了不同视觉语言任务之间的壁垒,提升了多个任务训练的效率并促进了具体任务的性能表现.本文总结视觉语言多模态预训练领域的进展,首先对常见的预训练数据集和预训练方法进行汇总,然后对目前最新方法以及经典方法进行系统概述,按输入来源分为图像—文本预训练模型和视频—文本多模态模型两大类,阐述了各方法之间的共性和差异,并将各模型在具体下游任务上的实验情况进行汇总.最后,总结了视觉语言预训练面临的挑战和未来发展趋势.

    多模态机器学习视觉语言多模态预训练自监督学习图像文本预训练视频文本预训练

    Bayer阵列图像去马赛克算法综述

    魏凌云孙帮勇
    2683-2696页
    查看更多>>摘要:Bayer阵列图像去马赛克技术是对稀疏采样的Bayer阵列图像进行RGB信息重建,图像重建质量是成像设备评价的重要因素之一,同时也对其他计算机视觉任务(如图像分割、人脸识别)产生影响.随着深度学习方法的快速发展,图像去马赛克领域提出了多种高性能算法.为了便于研究者更全面了解图像去马赛克算法的原理和研究进展,本文对该领域的经典算法和深度学习算法进行综述.首先对Bayer采样阵列原理和图像去马赛克技术进行概述.然后将现有方法分为传统方法和基于深度学习方法两类进行总结,同时根据去马赛克任务是否具有独立性,将深度学习方法分为独立去马赛克任务和联合去马赛克任务两类,分析不同方法的原理和优缺点,重点阐述基于深度学习的去马赛克方法的网络结构和重建机理,介绍去马赛克领域常用的公共数据集和性能评价指标,并对图像去马赛克相关实验进行分析对比.最后,围绕网络深度、运算效率和实用性等方面分析了现阶段图像去马赛克技术面临的挑战及未来发展方向.目前,基于深度学习的图像去马赛克方法已成为主流发展方向,但仍然存在计算成本较高、实际应用性不强等问题.因此,如何开发出重建精度高、处理时间短以及实用性强的图像去马赛克方法,是该领域未来重要的研究方向.

    图像去马赛克Bayer阵列图像图像处理深度学习卷积神经网络(CNN)综述

    多特征决策融合的音频copy-move篡改检测与定位

    张国富肖锐苏兆品廉晨思...
    2697-2707页
    查看更多>>摘要:目的 随着各种功能强大的音频编辑软件的流行,使得不具备专业知识的普通用户也可以轻松随意地对数字音频文件进行编辑甚至是恶意篡改,这给数字音频的鉴真带来了极大挑战.其中,copy-move篡改是将同一段音频中的部分区域复制粘贴到其他部分,从而实现对音频的语义篡改.由于其篡改片段的特性与原始音频文件匹配度极高,导致检测难度极大,已成为音频取证领域的一个研究热点.然而,现有研究大多基于语音端点检测技术,只能检测出整个有声片段是否发生篡改,而无法准确定位篡改的具体位置.为此,本文提出一种基于多特征决策融合的音频copy-move篡改检测与定位方法.方法 首先利用基于谱熵法的语音端点检测技术将音频划分为若干静音段和有声段,并基于能熵比方法进一步对有声段进行字节分割;然后提取每个字节的基音频率特征、颜色自相关图特征和短时能量特征,并利用动态时间规整距离计算任意两个字节在基音频率特征上的相似度,采用余弦距离计算两个字节在颜色自相关图特征上的相似度,利用短时能量和差值计算两个字节在短时能量特征上的相似度;最后基于多特征决策融合准确定位篡改位置.结果 在相关数据集上的对比实验结果表明,本文提出的多特征决策融合方法在精确率和召回率上均优于对比方法,达到了 90%以上.在检测的精确率上平均提升了约16%,在召回率上平均提升了约26%.此外,在定位的精准度上平均提升了约45%.而且,在对数据集进行一些常规信号处理攻击后,本文方法仍可以达到94%以上的检测准确率和召回率,且在检测的精确率上平均提升了约16%,在召回率上平均提升了约31%.结论 本文方法不仅具有更高的检测精确率、召回率和定位精准度,而且对常规信号处理攻击也具有更好的鲁棒性.

    音频取证copy-move篡改检测与定位多特征决策融合基音频率颜色自相关图短时能量

    多级特征全局一致性的伪造人脸检测

    杨少聪王健孙运莲唐金辉...
    2708-2720页
    查看更多>>摘要:目的 随着深度伪造技术的快速发展,人脸伪造图像越来越难以鉴别,对人们的日常生活和社会稳定造成了潜在的安全威胁.尽管当前很多方法在域内测试中取得了令人满意的性能表现,但在检测未知伪造类型时效果不佳.鉴于伪造人脸图像的伪造区域和非伪造区域具有不一致的源域特征,提出一种基于多级特征全局一致性的人脸深度伪造检测方法.方法 使用人脸结构破除模块加强模型对局部细节和轻微异常信息的关注.采用多级特征融合模块使主干网络不同层级的特征进行交互学习,充分挖掘每个层级特征蕴含的伪造信息.使用全局一致性模块引导模型更好地提取伪造区域的特征表示,最终实现对人脸图像的精确分类.结果 在两个数据集上进行实验.在域内实验中,本文方法的各项指标均优于目前先进的检测方法,在高质量和低质量FaceForensics++数据集上,AUC(area under the curve)分别达到99.02%和90.06%.在泛化实验中,本文的多项评价指标相比目前主流的伪造检测方法均占优.此外,消融实验进一步验证了模型的每个模块的有效性.结论 本文方法可以较准确地对深度伪造人脸进行检测,具有优越的泛化性能,能够作为应对当前人脸伪造威胁的一种有效检测手段.

    人脸伪造检测深度伪造多级特征学习全局一致性注意力机制