首页期刊导航|中国图象图形学报
期刊信息/Journal information
中国图象图形学报
中国图象图形学报

李小文

月刊

1006-8961

jig@irsa.ac.cn

010-64807995 8261442

100101

北京9718信箱

中国图象图形学报/Journal Journal of Image and GraphicsCSCD北大核心CSTPCD
查看更多>>本刊是集计算机图象图形高科技理论与应用研究成果、成果产品化与商情动态于一体的综合性学术期刊。是核心期刊、权威性杂志。作为中国图象图形学学会的会刊,利用学会在国内外广泛的科技信息渠道、全方位多层面的学科交叉应用,积极向产业界宣传科技成果,热心向科技界推荐最新产品。
正式出版
收录年代

    基于深度学习的视觉目标检测技术综述

    曹家乐李亚利孙汉卿谢今...
    1697-1722页
    查看更多>>摘要:视觉目标检测旨在定位和识别图像中存在的物体,属于计算机视觉领域的经典任务之一,也是许多计算机视觉任务的前提与基础,在自动驾驶、视频监控等领域具有重要的应用价值,受到研究人员的广泛关注.随着深度学习技术的飞速发展,目标检测取得了巨大的进展.首先,本文总结了深度目标检测在训练和测试过程中的基本流程.训练阶段包括数据预处理、检测网络、标签分配与损失函数计算等过程,测试阶段使用经过训练的检测器生成检测结果并对检测结果进行后处理.然后,回顾基于单目相机的视觉目标检测方法,主要包括基于锚点框的方法、无锚点框的方法和端到端预测的方法等.同时,总结了目标检测中一些常见的子模块设计方法.在基于单目相机的视觉目标检测方法之后,介绍了基于双目相机的视觉目标检测方法.在此基础上,分别对比了单目目标检测和双目目标检测的国内外研究进展情况,并展望了视觉目标检测技术发展趋势.通过总结和分析,希望能够为相关研究人员进行视觉目标检测相关研究提供参考.

    视觉目标检测深度学习单目双目锚点框

    面向复杂场景的人物视觉理解技术

    马利庄吴飞毛启容王鹏杰...
    1723-1742页
    查看更多>>摘要:面向复杂场景的人物视觉理解技术能够提升社会智能化协作效率,加速社会治理智能化进程,并在服务人类社会的经济活动、建设智慧城市等方面展现出巨大活力,具有重大的社会效益和经济价值.人物视觉理解技术主要包括实时人物识别、个体行为分析与群体交互理解、人机协同学习、表情与语音情感识别和知识引导下视觉理解等,当环境处于复杂场景中,特别是考虑"人物—行为—场景"整体关联的视觉表达与理解,相关问题的研究更具有挑战性.其中,大规模复杂场景实时人物识别主要集中在人脸检测、人物特征理解以及场景分析等,是复杂场景下人物视觉理解技术的重要研究基础;个体行为分析与群体交互理解主要集中在视频行人重识别、视频动作识别、视频问答和视频对话等,是视觉理解的关键行为组成部分;同时,在个体行为分析和群体交互理解中,形成综合利用知识与先验的机器学习模式,包含视觉问答对话、视觉语言导航两个重点研究方向;情感的识别与合成主要集中在人脸表情识别、语音情感识别与合成以及知识引导下视觉分析等方面,是情感交互的核心技术.本文围绕上述核心关键技术,阐述复杂场景下人物视觉理解领域的研究热点与应用场景,总结国内外相关成果与进展,展望该领域的前沿技术与发展趋势.

    复杂场景视觉理解人物识别深度学习行为分析

    面向智慧交通的图像处理与边缘计算

    曹行健张志涛孙彦赞王平...
    1743-1767页
    查看更多>>摘要:随着全球人口的持续增长和城市化进程的加速,道路拥挤、交通事故和污染排放增加等问题日益严重.智慧交通系统旨在借助先进的信息与通信技术建成高效安全、环保舒适的交通与运输体系,提供全方位的交通信息服务和安全高效、经济快捷的交通运输与出行服务.经过各国多年来的竭力推进与发展,智慧交通系统在交通管理、自动驾驶与车路协同等方向均得到广泛的应用.智慧交通的发展离不开通信、计算机与控制等研究方向的突破与创新.其中,图像处理作为智慧交通系统的核心技术之一,它的研究进展直接影响着智慧交通系统的部署.图像处理技术是指计算机对图像进行增强、复原、提取特征、分类和分割等技术处理,通过对交通视觉图像的处理,为智慧交通系统的感知、识别、检测、跟踪和路径规划等功能提供了最直接与重要的信息.此外,面对智慧交通系统所产生的大量数据计算任务,边缘计算技术则将中心云服务下沉至各边缘节点附近,不但能够优化算力负载分配,还能够满足智慧交通应用与服务对低时延、高响应速度的需求.本文从智慧交通系统的发展现状人手,分别围绕面向智慧交通的图像处理与边缘计算技术,阐述其研究热点与前沿进展,汇总与比较国内外的相关学术和产业成果,并对智慧交通系统中的图像处理及边缘计算技术未来的发展进行总结分析与趋势展望.

    智慧交通系统(ITS)图像处理边缘计算自动驾驶车路协同(CVIS)深度学习

    视觉弱监督学习研究进展

    任冬伟王旗龙魏云超孟德宇...
    1768-1798页
    查看更多>>摘要:视觉理解,如物体检测、语义和实例分割以及动作识别等,在人机交互和自动驾驶等领域中有着广泛的应用并发挥着至关重要的作用.近年来,基于全监督学习的深度视觉理解网络取得了显著的性能提升.然而,物体检测、语义和实例分割以及视频动作识别等任务的数据标注往往需要耗费大量的人力和时间成本,已成为限制其广泛应用的一个关键因素.弱监督学习作为一种降低数据标注成本的有效方式,有望对缓解这一问题提供可行的解决方案,因而获得了较多的关注.围绕视觉弱监督学习,本文将以物体检测、语义和实例分割以及动作识别为例综述国内外研究进展,并对其发展方向和应用前景加以讨论分析.在简单回顾通用弱监督学习模型,如多示例学习(multiple instance learning,MIL)和期望—最大化(expectation-maximization,EM)算法的基础上,针对物体检测和定位,从多示例学习、类注意力图机制等方面分别进行总结,并重点回顾了自训练和监督形式转换等方法;针对语义分割任务,根据不同粒度的弱监督形式,如边界框标注、图像级类别标注、线标注或点标注等,对语义分割研究进展进行总结分析,并主要回顾了基于图像级别类别标注和边界框标注的弱监督实例分割方法;针对视频动作识别,从电影脚本、动作序列、视频级类别标签和单帧标签等弱监督形式,对弱监督视频动作识别的模型与算法进行回顾,并讨论了各种弱监督形式在实际应用中的可行性.在此基础上,进一步讨论视觉弱监督学习面临的挑战和发展趋势,旨在为相关研究提供参考.

    弱监督学习目标定位目标检测语义分割实例分割动作识别

    智能遥感:AI赋能遥感技术

    孙显孟瑜刁文辉黄丽佳...
    1799-1822页
    查看更多>>摘要:随着人工智能的发展和落地应用,以地理空间大数据为基础,利用人工智能技术对遥感数据智能分析与解译成为未来发展趋势.本文以遥感数据转化过程中对观测对象的整体观测、分析解译与规律挖掘为主线,通过综合国内外文献和相关报道,梳理了该领域在遥感数据精准处理、遥感数据时空处理与分析、遥感目标要素分类识别、遥感数据关联挖掘以及遥感开源数据集和共享平台等方面的研究现状和进展.首先,针对遥感数据精准处理任务,从光学、合成孔径雷达等遥感数据成像质量提升和低质图像重建两个方面对精细化处理研究进展进行了回顾,并从遥感图像的局部特征匹配和区域特征匹配两个方面对定量化提升研究进展进行了回顾.其次,针对遥感数据时空处理与分析任务,从遥感影像时间序列修复和多源遥感时空融合两个方面对其研究进展进行了回顾.再次,针对遥感目标要素分类识别任务,从典型地物要素提取和多要素并行提取两个方面对其研究进展进行了回顾.最后,针对遥感数据关联挖掘任务,从数据组织关联、专业知识图谱构建两个方面对其研究进展进行了回顾.除此之外,面向大智能分析技术发展需求,本文还对遥感开源数据集和共享平台方面的研究进展进行了回顾.在此基础上,对遥感数据智能分析与解译的研究情况进行梳理、总结,给出了该领域的未来发展趋势与展望.

    遥感大数据数据处理时空处理与分析目标要素分类识别数据关联挖掘开源数据集共享平台

    脉冲视觉研究进展

    黄铁军余肇飞李源施柏鑫...
    1823-1839页
    查看更多>>摘要:视频是视觉信息处理的基础概念,传统视频的帧率只有几十Hz,不能记录光的高速变化过程,成为限制机器视觉速度的天花板,其根本原因在于视频概念脱胎于胶片成像,未能发挥电子和数字技术的潜力.脉冲视觉模型通过感光器件捕获光子,累积能量达到约定阈值时产生脉冲,形成脉冲的时间越长,表明收到的光信号越弱,反之光信号越强,据此可估计任意时刻的光强,从而实现连续成像.采用普通器件,研制了比影视视频快千倍的超高速成像芯片和相机,进而基于脉冲神经网络实现了超高速目标检测、跟踪和识别,打破了机器视觉提速依赖算力线性增长的传统范式.本文从脉冲视觉模型表达视觉信息的生物学基础和物理原理出发,介绍了脉冲视觉原理的软件模拟器及其模拟真实世界光子传播的计算过程,描述了基于脉冲视觉原理的高灵敏光电传感器件及芯片的工作机理和结构设计、基于脉冲视觉的影像重建原理以及脉冲视觉信号与普通图像信号融合的计算摄像算法与计算摄像系统,介绍了基于脉冲神经网络的超高速运动目标检测、跟踪与识别,通过对比国际国内相关研究内容和发展现状,展望了脉冲视觉的发展与演进方向.脉冲视觉芯片和系统在工业(高铁、电力和轮机等不停机监测,智能制造高速监视等)、民用(高速相机、智能交通、辅助驾驶、司法取证和体育判罚等)以及国防(高速对抗)等领域都具有巨大应用潜力,是未来值得重点关注和研究的一个重要方向.

    脉冲视觉脉冲神经网络视觉信息处理类脑视觉人工智能

    计算成像前沿进展

    顿雄付强李浩天孙天成...
    1840-1876页
    查看更多>>摘要:计算成像是融合光学硬件、图像传感器和算法软件于一体的新一代成像技术,突破了传统成像技术信息获取深度(高动态范围、低照度)、广度(光谱、光场、3维)的瓶颈.本文以计算成像的新设计方法、新算法和应用场景为主线,通过综合国内外文献和相关报道来梳理该领域的主要进展.从端到端光学算法联合设计、高动态范围成像、光场成像、光谱成像、无透镜成像、低照度成像、3维成像和计算摄影等研究方向,重点论述计算成像领域的发展现状、前沿动态、热点问题和趋势.端到端光学算法联合设计包括了可微的衍射光学模型、折射光学模型以及基于可微光线追踪的复杂透镜的模型.高动态范围光学成像从原理到光学调制、多次曝光、多传感器融合以及算法等层面阐述不同方法的优点与缺点以及产业应用.光场成像阐述了基于光场的3维重建技术在超分辨、深度估计和3维尺寸测量等方面国内外的研究进展和产业应用,以及光场在粒子测速及3维火焰重构领域的研究进展.光谱成像阐述了当前多通道滤光片,基于深度学习和波长响应曲线求逆问题,以及衍射光栅、多路复用和超表面等优化实现高光谱的获取.无透镜成像包括平面光学元件的设计和优化,以及图像的高质量重建算法.低照度成像包括低照度情况下基于单帧、多帧、闪光灯和新型传感器的图像噪声去除等.3维成像主要包括针对基于主动方法的深度获取的困难的最新的解决方案,这些困难包括强的环境光干扰(如太阳光)、强的非直接光干扰(如凹面的互反射、雾天的散射)等.计算摄影学是计算成像的一个分支学科,从传统摄影学发展而来,更侧重于使用数字计算的方式进行图像拍摄.在光学镜片的物理尺寸、图像质量受限的情况下,如何使用合理的计算资源,绘制出用户最满意的图像是其主要研究和应用方向.

    端到端成像高动态范围成像光场成像光谱成像无透镜成像低照度成像主动3维成像计算摄影

    移动在线实时绘制技术研究综述

    刘畅霍宇驰张严辞张乾...
    1877-1897页
    查看更多>>摘要:移动在线实时绘制技术受移动互联网发展的驱动,为3维可视化、计算机视觉、虚拟现实、增强现实、扩展现实和元宇宙等新兴研究领域提供了核心技术的支撑.本文以在线实时绘制技术为切入点,探讨了该技术在移动端、Web端、云端和多端协同这4类平台下的发展重心和研究现状,并深度阐述了工业级在线云平台的实施方案.首先,针对移动端的在线实时绘制,分析了近年来移动端绘制硬件构架设计的优化方向;探讨了在功耗和带宽受到制约的情况下移动端如何对渲染算法进行加速,如何对高功耗的光线跟踪算法进行优化;列举了包括图形应用程序编程接口(application programming interface,API)和游戏引擎在内的移动端渲染工具.然后,针对Web端在线实时绘制,分析了 Web端的3D渲染机制,梳理了以3D场景的轻量化预处理、大规模3D场景的细粒度化网络传输、3D场景的对等传输以及Web3D在线特效渲染为代表的Web端在线绘制的关键技术(尤其面向大规模3D场景),列举了国内外知名Web3D引擎并探讨了主流游戏引擎对Web3D应用的支持.再后,针对云端在线实时绘制,从应用托管、资源调度和串流这三大云平台的核心功能入手,调研了以串流应用优化技术为核心的在线云绘制现状.此后,从多端绘制任务分摊机制入手,分析了以"端云"协同和"端边云"协同为目标的在线多端协同绘制的发展.最后,以当前工业级在线云绘制平台为研究对象,分析了包括微软、英伟达、Unity、酷家乐等一线云绘制企业的在线实时云绘制平台方案,验证了移动在线绘制技术在工业界的实用性.

    在线实时绘制云渲染Web3D端云协同远程绘制

    表格识别技术研究进展

    高良才李一博都林张新鹏...
    1898-1917页
    查看更多>>摘要:表格广泛存在于科技文献、财务报表、报纸杂志等各类文档中,用于紧凑地存储和展现数据,蕴含着大量有用信息.表格识别是表格信息再利用的基础,具有重要的应用价值,也一直是模式识别领域的研究热点之一.随着深度学习的发展,针对表格识别的新研究和新方法纷纷涌现.然而,由于表格应用场景广泛、样式众多、图像质量参差不齐等因素,表格识别领域仍然存在着大量问题亟需解决.为了更好地总结前人工作,为后续研究提供支持,本文围绕表格区域检测、结构识别和内容识别等3个表格识别子任务,从传统方法、深度学习方法等方面,综述该领域国内外的发展历史和最新进展.梳理了表格识别相关数据集及评测标准,并基于主流数据集和标准,分别对表格区域检测、结构识别、表格信息抽取的典型方法进行了性能比较.然后,对比分析了国内相对于国外,在表格识别方面的研究进展与水平.最后,结合表格识别领域目前面临的主要困难与挑战,对未来的研究趋势和技术发展目标进行了展望.

    表格区域检测表格结构识别表格内容识别深度学习单元格识别表格信息抽取

    多媒体隐写研究进展

    张卫明王宏霞李斌任延珍...
    1918-1943页
    查看更多>>摘要:大数据分析可以跳过数据内容而仅从数据背景挖掘情报,传统的加密通信已经难以满足安全通信的需求.隐写技术是将秘密消息嵌入各种载体(如数字图像、音频、视频或文本)中实现隐蔽通信的技术,是应对大数据情报获取的有效手段,是密码技术的必要补充.人工智能,尤其是深度学习,在计算机视觉、语音和自然语言处理等领域的巨大成功,给隐写术带来了新机遇,提出了新挑战,促使基于图像、音/视频和文本的隐写术出现了一系列新思想、新方法.本文介绍隐写术的概念、分类、主要作用和研究意义,概述隐写术的发展历史、研究近况和应用场景.注意到各类载体上的隐写术虽然有差别,但是其核心追求有共通之处,可以提炼成通用的隐写编码问题.所以本文首先介绍隐写编码的基本思想与关键技术,然后针对最重要和流行的载体、图像、视频、音频和文本,分别介绍隐写术的进展.总体而言,本文从隐写编码、图像隐写、视频隐写、音频隐写和文本隐写5个方面概述隐写术的国际/国内发展现状,总结差异,对比优势和劣势,并分析发展趋势.

    隐写编码文本隐写图像隐写音频隐写视频隐写