首页期刊导航|中国图象图形学报
期刊信息/Journal information
中国图象图形学报
中国图象图形学报

李小文

月刊

1006-8961

jig@irsa.ac.cn

010-64807995 8261442

100101

北京9718信箱

中国图象图形学报/Journal Journal of Image and GraphicsCSCD北大核心CSTPCD
查看更多>>本刊是集计算机图象图形高科技理论与应用研究成果、成果产品化与商情动态于一体的综合性学术期刊。是核心期刊、权威性杂志。作为中国图象图形学学会的会刊,利用学会在国内外广泛的科技信息渠道、全方位多层面的学科交叉应用,积极向产业界宣传科技成果,热心向科技界推荐最新产品。
正式出版
收录年代

    视频处理与压缩技术

    贾川民马海川杨文瀚任文琦...
    1179-1200页
    查看更多>>摘要:视频处理与压缩是多媒体计算与通信领域的核心主题之一,是连接视频采集传输和视觉分析理解的关键桥梁,也是诸多视频应用的基础.当前"5G+超高清+AI"正在引发多媒体计算与通信领域的新一轮重大技术革新,视频处理与压缩技术正在发生深刻变革,亟需建立视频大数据高效紧凑表示理论和方法.为此,学术研究机构和工业界对视频大数据的视觉表示机理、视觉信息紧凑表达、视频信号重建与恢复、高层与低层视觉融合处理方法及相应硬件技术等前沿领域进行了广泛深入研究.本文从数字信号处理基础理论出发,分析了当前视频处理与压缩领域的热点问题和研究内容,包括基于统计先验模型的视频数据表示模型及处理方法、融合深度网络模型的视频处理技术、视频压缩技术以及视频压缩标准进展等领域.详细描述了视频超分辨率、视频重建与恢复、视频压缩技术等领域面临的前沿动态、发展趋势、技术瓶颈和标准化进程等内容,对国际国内研究内容和发展现状进行了综合对比与分析,并展望了视频处理与压缩技术的发展与演进方向.更高质量视觉效果和高效率视觉表达之间将不再是单独研究的个体,融合类脑视觉系统及编码机理的视频处理与压缩技术将是未来研究的重要领域之一.

    多媒体技术视频信号处理视频压缩人工智能深度学习

    面向体验质量的多媒体计算通信

    陶晓明杨铀徐迈段一平...
    1201-1215页
    查看更多>>摘要:随着移动互联网和通讯技术的发展,多媒体通信技术成为国家信息产业发展的重大需求,广泛地应用在视频会议、各类直播应用、远程医疗、远程监控和远程教育等方面.然而,大容量多媒体通信业务面临着网络带宽的压力.本文将媒体计算引入通信系统,建立新的多媒体通信研究范式,从提升体验质量(quality of experience,QoE)的角度,形成新的多媒体编码与传输方法,从根本上降低网络带宽需求的压力.体验质量即信息接收者结合自身期望对客观信息载体的有关性能给出的主观评价,是区别于服务质量(quality of service,QoS)的通信质量评价准则.本文介绍了QoE的评价准则,分为基于用户的评价方法和基于客观参数的评价方法,通过用户主观评分或对用户的相关生理、心理指标进行测量进而分析、推测用户的感受;或者通过对业务客观指标的主观化修正实现体验质量的评价.本文综述了多媒体编码方法,主要包括基于波形的编码和基于内容的编码方法.前者对任意视频信号进行有效编码而不需要分析视频内容,如一系列视频编码标准;后者识别视频序列中的物体和相关区域并对它们进行编码.本文阐述了5G+ AI(artificial intelligence)时代的新型视频传输方法,如多视点视频编码、4K、8K视频编码,3D立体视频,点云、光场、AR(augmented reality)、VR(virtual reality)等视频业务.

    计算通信多媒体通信评价准则多媒体编码多媒体传输

    数字媒体取证技术综述

    李晓龙俞能海张新鹏张卫明...
    1216-1226页
    查看更多>>摘要:面对每天有数以百万计通过网络传播的多媒体数据,到底哪些内容是真实可信的,虚假内容的背后又经历了哪些篡改?数字取证技术将给出答案.该技术不预先嵌入水印,而是直接分析多媒体数据的内容,达到辨别真实性的目的 .任何篡改和伪造都会在一定程度上破坏原始多媒体数据本身固有特征的完整性,由于其具有一致性和独特性,可作为自身的"固有指纹",用于鉴别篡改文件.随着篡改媒体的数量与日俱增,社会稳定甚至国家安全受到了严重威胁.特别地,随着深度学习技术的快速发展,虚假媒体与真实媒体之间的感官差距越来越小,这对媒体取证研究提出了巨大挑战,并使得多媒体取证成为信息安全领域一个重要的研究方向.因此,目前迫切需要能够检测虚假多媒体内容和避免危险虚假信息传播的技术和工具.本文旨在对过去多媒体取证领域所提出的优秀检测取证算法进行总结.除了回顾传统的媒体取证方法,还将介绍基于深度学习的方法.本文针对当今主流的多媒体篡改对象:图像、视频和语音分别进行总结,并针对每种媒体形式,分别介绍传统篡改方法和基于AI(artifi-cial intelligence)生成的篡改方法,并介绍了已公开的大规模数据集以及相关应用的情况,同时探讨了多媒体取证领域未来可能的发展方向.

    多媒体取证多媒体溯源篡改检测篡改定位虚假人脸

    面向智慧城市的交通视频结构化分析前沿进展

    赵耀田永鸿党建武付树军...
    1227-1253页
    查看更多>>摘要:随着智慧城市建设的不断深入,大量的传感器设备铺置在城市公路和轨道等交通场景,为多维度全方位感知城市交通状态构建了广泛的感知网络,产生了海量的交通视频数据.海量交通视频数据是城市管理的数据宝藏,理解与分析这些数据是智慧城市建设的关键.面对高度冗余的交通视频数据,如何高效准确地挖掘和提取结构化信息,实现对重点目标(如人、车、物)的快速检测、识别与检索,是交通视频处理的核心问题——交通视频结构化分析.交通视频结构化分析包括车辆视频结构化分析、人员结构化分析及其行为分析.其中,车辆结构化作为一个复杂的多步骤任务,主要由车辆的检测、车辆的属性(车牌、车型和颜色)识别以及车辆的检索和重识别等子任务构成.人脸结构化和行人结构化是交通视频中行人结构化智能分析中的两个重要研究方向,主要分析人脸或者行人的一些表观属性.行人行为分析是指对行人在复杂交通环境下做出的动作进行识别和预测.本文从交通视频中的车辆、行人及其行为分析等方面,阐述交通视频结构化分析领域的研究热点及前沿进展,汇总比较国内外的相关成果,并对交通视频结构化分析领域的研究进行总结分析与展望.

    交通视频车辆结构化分析行人结构化分析行为结构化分析车辆检测车辆属性识别车辆检索人脸结构化分析

    生物特征识别学科发展报告

    孙哲南赫然王亮阚美娜...
    1254-1329页
    查看更多>>摘要:从手机解锁、小区门禁到餐厅吃饭、超市收银,再到高铁进站、机场安检以及医院看病,人脸、虹膜和指纹等生物特征已成为人们进入万物互联世界的数字身份证.生物特征识别赋予机器自动探测、捕获、处理、分析和识别数字化生理或行为信号的高级智能,是一个典型而又复杂的模式识别问题,一直处于人工智能技术发展前沿,在新一代人工智能规划、"互联网+"行动计划等国家战略中具有重要地位.由于生物特征识别涉及公众利益攸关的隐私、道德和法律等问题,近期也引起了广泛的社会关注.本文系统综述了生物特征识别学科发展现状、新兴方向、存在问题和可行思路,深入梳理了人脸、虹膜、指纹、掌纹、静脉、声纹、步态、行人重识别以及多模态融合识别的研究进展,以人脸为例重点介绍了生物特征识别领域近些年受到关注的新方向——对抗攻击和防御、深度伪造和反伪造,最后剖析总结了生物特征识别领域存在的3大挑战问题——"感知盲区"、"决策误区"和"安全红区".本文认为必须变革和创新生物特征的传感、认知和安全机制,才有可能取得复杂场景生物识别学术研究和技术应用的根本性突破,破除现有生物识别技术的弊端,朝着"可感"、"可知"和"可信"的新一代生物特征识别总体目标发展.

    生物特征识别人脸虹膜指纹掌纹静脉声纹步态行人重识别多模态

    自然场景文本检测与识别的深度学习方法

    刘崇宇陈晓雪罗灿杰金连文...
    1330-1367页
    查看更多>>摘要:许多自然场景图像中都包含丰富的文本,它们对于场景理解有着重要的作用.随着移动互联网技术的飞速发展,许多新的应用场景都需要利用这些文本信息,例如招牌识别和自动驾驶等.因此,自然场景文本的分析与处理也越来越成为计算机视觉领域的研究热点之一,该任务主要包括文本检测与识别.传统的文本检测和识别方法依赖于人工设计的特征和规则,且模型设计复杂、效率低、泛化性能差.随着深度学习的发展,自然场景文本检测、自然场景文本识别以及端到端的自然场景文本检测与识别都取得了突破性的进展,其性能和效率都得到了显著提高.本文介绍了该领域相关的研究背景,对基于深度学习的自然场景文本检测、识别以及端到端自然场景文本检测与识别的方法进行整理分类、归纳和总结,阐述了各类方法的基本思想和优缺点.并针对隶属于不同类别下的方法,进一步论述和分析这些主要模型的算法流程、适用场景和技术发展路线.此外,列举说明了部分主流公开数据集,对比了各个模型方法在代表性数据集上的性能情况.最后总结了目前不同场景数据下的自然场景文本检测、识别及端到端自然场景文本检测与识别算法的局限性以及未来的挑战和发展趋势.

    自然场景文本检测自然场景文本识别(STR)端到端自然场景文本检测与识别深度学习光学字符识别(OCR)综述

    基于深度学习的跨模态检索综述

    尹奇跃黄岩张俊格吴书...
    1368-1388页
    查看更多>>摘要:由于多模态数据的快速增长,跨模态检索受到了研究者的广泛关注,其将一种模态的数据作为查询条件检索其他模态的数据,如用户可以用文本检索图像或/和视频.由于查询及其检索结果模态表征的差异,如何度量不同模态之间的相似性是跨模态检索的主要挑战.随着深度学习技术的推广及其在计算机视觉、自然语言处理等领域的显著成果,研究者提出了一系列以深度学习为基础的跨模态检索方法,极大缓解了不同模态间相似性度量的挑战,本文称之为深度跨模态检索.本文从以下角度综述有代表性的深度跨模态检索论文,基于所提供的跨模态信息将这些方法分为3类:基于跨模态数据间一一对应的、基于跨模态数据间相似度的以及基于跨模态数据语义标注的深度跨模态检索.一般来说,上述3类方法提供的跨模态信息呈现递增趋势,且提供学习的信息越多,跨模态检索性能越优.在上述不同类别下,涵盖了7类主流技术,即典型相关分析、一一对应关系保持、度量学习、似然分析、学习排序、语义预测以及对抗学习.不同类别下包含部分关键技术,本文将具体阐述其中有代表性的方法.同时对比提供不同跨模态数据信息下不同技术的区别,以阐述在提供了不同层次的跨模态数据信息下相关技术的关注点与使用异同.为评估不同的跨模态检索方法,总结了部分代表性的跨模态检索数据库.最后讨论了当前深度跨模态检索待解决的问题以及未来的研究方向.

    跨模态检索跨模态哈希深度学习共同表示学习对抗学习似然分析学习排序

    三维视觉前沿进展

    龙霄潇程新景朱昊张朋举...
    1389-1428页
    查看更多>>摘要:在自动驾驶、机器人、数字城市以及虚拟/混合现实等应用的驱动下,三维视觉得到了广泛的关注.三维视觉研究主要围绕深度图像获取、视觉定位与制图、三维建模及三维理解等任务而展开.本文围绕上述三维视觉任务,对国内外研究进展进行了综合评述和对比分析.首先,针对深度图像获取任务,从非端到端立体匹配、端到端立体匹配及无监督立体匹配3个方面对立体匹配研究进展进行了回顾,从深度回归网络和深度补全网络两个方面对单目深度估计研究进展进行了回顾.其次,针对视觉定位与制图任务,从端到端视觉定位和非端到端视觉定位两个方面对大场景下的视觉定位研究进展进行了回顾,并从视觉同步定位与地图构建和融合其他传感器的同步定位与地图构建两个方面对同步定位与地图构建的研究进展进行了回顾.再次,针对三维建模任务,从深度三维表征学习、深度三维生成模型、结构化表征学习与生成模型以及基于深度学习的三维重建等4个方面对三维几何建模研究进展进行了回顾,并从多视RGB重建、单深度相机和多深度相机方法以及单视图RGB方法等3个方面对人体动态建模研究进展进行了回顾.最后,针对三维理解任务,从点云语义分割和点云实例分割两个方面对点云语义理解研究进展进行了回顾.在此基础上,给出了三维视觉研究的未来发展趋势,旨在为相关研究者提供参考.

    立体匹配单目深度估计视觉定位同步定位与地图构建(SLAM)三维几何建模人体动态重建点云语义理解

    大规模室外图像3维重建技术研究进展

    颜深张茂军樊亚春谭小慧...
    1429-1449页
    查看更多>>摘要:基于图像的3维重建旨在从一组2维多视角图像中精确地恢复真实场景的几何形状,是计算机视觉和摄影测量中基础且活跃的研究课题,具有重要的理论研究意义和应用价值,在智慧城市、虚拟旅游、数字遗产保护、数字地图和导航等领域有着广泛应用.随着图像采集系统(智能手机、消费级数码相机和民用无人机等)的普及和互联网的高速发展,通过搜索引擎可以获取大量关于某个室外场景的互联网图像.利用这些图像进行高效鲁棒准确的3维重建,为用户提供真实感知和沉浸式体验已经成为研究热点,引发了学术界和产业界的广泛关注,涌现了多种方法.深度学习的出现为大规模室外图像的3维重建提供了新的契机.首先阐述大规模室外图像3维重建的基本串行过程,包括图像检索、图像特征点匹配、运动恢复结构和多视图立体.然后从传统方法和基于深度学习的方法两个角度,分别系统全面地回顾大规模室外图像3维重建技术在各重建子过程中的发展和应用,总结各子过程中适用于大规模室外场景的数据集和评价指标.最后介绍现有主流的开源和商业3维重建系统以及国内相关产业的发展现状.

    3维重建图像检索图像特征点匹配运动恢复结构多视图立体

    视觉传感成像技术与数据处理进展

    王程陈峰汶德胜雷浩...
    1450-1469页
    查看更多>>摘要:本文以视觉传感的新视觉传感硬件、处理技术和应用场景为主线,通过综合国内外文献和相关报道来梳理该领域在成像技术和数据处理方面的主要进展.从激光扫描成像、大动态范围光学成像技术、偏振成像与传感技术和海洋声学层析成像等研究方向,重点论述视觉传感领域的发展现状、前沿动态、热点问题和趋势.基于激光扫描的3维建模技术虽然取得了一些进展,但仍面临居多挑战.随着硬件设备和数据处理技术的发展,未来激光扫描系统将在众多民用领域得到广泛应用,满足不同的探测和建模任务;大动态范围光学成像相关技术已逐步应用于红外成像、光谱成像、偏振成像、超声成像和单光子成像等领域,将为多维信息获取、智能处理以及数据挖掘等提供有力支撑;充分挖掘偏振成像的应用潜能,与其他先进成像传感技术相结合,实现更优性能,对各个尺度下的成像场景都具有重要的应用价值;海洋声学层析成像需要与其他方法相结合,发展基于分布式水下传感网络、卫星观测、海底电缆、人工与自然噪声机会声源等联合观测的低成本、长期观测网络.对国内外视觉传感领域进展情况进行梳理、总结,有助于发现该领域的发展趋势以及明确下一步的研究方向.

    视觉传感激光扫描大动态范围成像偏振成像海洋声学层析成像