首页期刊导航|中国图象图形学报
期刊信息/Journal information
中国图象图形学报
中国图象图形学报

李小文

月刊

1006-8961

jig@irsa.ac.cn

010-64807995 8261442

100101

北京9718信箱

中国图象图形学报/Journal Journal of Image and GraphicsCSCD北大核心CSTPCD
查看更多>>本刊是集计算机图象图形高科技理论与应用研究成果、成果产品化与商情动态于一体的综合性学术期刊。是核心期刊、权威性杂志。作为中国图象图形学学会的会刊,利用学会在国内外广泛的科技信息渠道、全方位多层面的学科交叉应用,积极向产业界宣传科技成果,热心向科技界推荐最新产品。
正式出版
收录年代

    分割一切模型SAM的潜力与展望:综述

    王淼黄智忠何晖光卢湖川...
    1479-1509页
    查看更多>>摘要:随着基于对比文本—图像对的预训练(contrastive language-image pre-training,CLIP)方法或者模型、聊天生成预训练转换器(chat generative pre-trained Transformer,ChatGPT)、生成预训练转换器-4(generative pre-trained Trans-former-4,GPT-4)等基础大模型的出现,通用人工智能(artificial general intelligence,AGI)的研究得到快速发展。AGI旨在为人工智能系统赋予更强大的执行能力,使其能够自主学习、不断进化,解决各种问题和处理不同的任务,从而在多个领域得到广泛应用。这些基础模型在大规模数据集上进行训练后,能够成功应对多样的下游任务。在这一背景下,Meta公司提出的分割一切模型(segment anything model,SAM)于2023年取得重要突破,在图像分割领域获得了优异的性能,以至于被称为图像分割终结者。其原因之一是,通过SAM数据引擎方法用三阶段采集的、包含1 100万图像和超过10亿掩码的分割一切—十亿(segment anything 1 billion,SA-1B)图像分割数据集,同时保证了掩码的品质和多样性,继续导致在分割领域的突破。在SAM开源后不久,科研人员提出了一系列改进的方法和应用。为了能全面深入了解分割一切模型的发展脉络、优势与不足,本文对SAM的研究进展进行了梳理和综述。首先,从基础模型、数据引擎和数据集等多个方面简要介绍了分割一切模型的背景和核心框架。在此基础上,本文详细梳理了目前分割一切模型的改进方法,包括提高推理速度和增进预测精度两个关键方向。然后,深入探讨分割一切模型在图像处理任务、视频相关任务以及其他领域中的广泛应用。这一部分详细介绍了模型在各种任务和数据类型上的卓越性能,突出其在多个领域的泛用性和发展潜力。最后,对分割一切模型未来的发展方向和潜在应用前景进行了深入分析和讨论。

    通用人工智能(AGI)计算机视觉图像分割视觉基础模型分割一切模型(SAM)大型语言模型(LLM)

    大小模型端云协同进化技术进展

    王永威沈弢张圣宇吴帆...
    1510-1534页
    查看更多>>摘要:生成式基座大模型正在引发人工智能领域的重大变革,在自然语言处理、多模态理解与内容合成等任务展现通用能力。大模型部署于云侧提供通用智能服务,但面临时延大、个性化不足等关键挑战,小模型部署于端侧捕捉个性化场景数据,但存在泛化性不足的难题。大小模型端云协同技术旨在结合大模型通用能力和小模型专用能力,以协同交互方式学习演化进而赋能下游垂直行业场景。本文以大语言模型和多模态大模型为代表,梳理生成式基座大模型的主流架构、典型预训练技术和适配微调等方法,介绍在大模型背景下模型剪枝、模型量化和知识蒸馏等大模型小型化关键技术的发展历史和研究近况,依据模型间协作目的及协同原理异同,提出大小模型协同训练、协同推理和协同规划的协同进化分类方法,概述端云模型双向蒸馏、模块化设计和生成式智能体等系列代表性新技术、新思路。总体而言,本文从生成式基座大模型、大模型小型化技术和大小模型端云协同方式3个方面探讨大小模型协同进化的国际和国内发展现状,对比优势和差距,并从应用前景、模型架构设计、垂直领域模型融合、个性化和安全可信挑战等层面分析基座赋能发展趋势。

    生成式大模型大模型小型化大小模型协同进化端云协同进化生成式智能体生成式人工智能

    AIGC视觉内容生成与溯源研究进展

    刘安安苏育挺王岚君李斌...
    1535-1554页
    查看更多>>摘要:随着数字媒体与创意产业的快速发展,人工智能生成内容(artificial intelligence generated content,AIGC)技术以其在视觉内容生成中的创新应用而逐渐受到关注。本文旨在围绕AIGC视觉内容生成与溯源研究进展深入研讨。首先,针对图像生成技术进行探讨,从基于生成式对抗网络的传统方法出发,系统地分析了基于生成式对抗网络、自回归模型和扩散概率模型的最新进展。接着,深入探讨可控图像生成技术,突出了通过布局、线稿等附加信息以及基于视觉参考的方法来为创作者提供精确控制的技术现状。随着图像生成技术的革新和应用,生成图像的安全性问题逐渐浮现。而预先审核和过滤的技术手段已难以满足实际需求,故亟需实现生成内容的溯源来进行监管。因此,本文进而对生成图像溯源技术进行研讨,并聚焦水印技术在确保生成内容可靠性和安全性方面的应用。依据水印嵌入的流程节点,首先将现有的水印相关的生成图像溯源方法归为无水印嵌入的生成图像溯源、水印前置嵌入的生成图像溯源、水印后置嵌入的生成图像溯源以及联合生成的生成图像溯源并进行详细分析,然后介绍针对生成图像的水印攻击研究现状,最后对生成图像溯源技术进行总结和展望。鉴于视觉内容生成在质量和安全上的挑战,旨在为研究者提供一个视觉内容生成与溯源的系统研究视角,以促进数字媒体创作环境的安全与可信,并引导未来相关技术的发展方向。

    人工智能内容生成(AIGC)视觉内容生成可控图像生成生成内容安全生成图像溯源

    儿童青少年大脑发育及脑图谱研究综述

    李雯樊令仲宋明张瑜...
    1555-1574页
    查看更多>>摘要:大脑发育是神经系统结构和功能分化及成熟的一系列动态过程。大脑结构的发育包括部分脑区白质体积和完整性的增加,以及灰质体积的下降等;而这些结构的改变往往伴随着认知功能的变化,如智商、工作记忆和问题解决能力的提高以及社会认知的改善等。越来越多的发育研究为儿童青少年的教育干预提供了参考信息,帮助学校和家庭引导其从拥有冲动冒险心理状态的少年儿童阶段平稳过渡到心智更为成熟的成人阶段。脑图谱作为研究脑结构、脑功能及脑疾病的重要手段,是研究者对大脑进行解析的有力工具,在大脑发育研究中发挥着不可缺少的作用。本文立足于发育脑图谱,从3方面对儿童青少年大脑发育及脑图谱研究进展进行综述。首先,介绍儿童青少年发育阶段大脑特征的转变,以此来强调关注儿童青少年阶段大脑健康发育的重要性;其次,介绍现有的包括数据预处理步骤在内的发育图谱绘制的方法和手段;最后,对儿童和青少年图谱的研究进展进行描述,并分析当前研究对理解儿童青少年发育所做出的贡献以及它们的不足之处。对发育中的大脑进行研究,有利于增强对正常发育过程的了解,以针对性地对失衡的发育过程进行早期干预;通过对现有技术手段优缺点的总结,促进相关领域研究者开发更多以研究儿童青少年为导向的数据处理工具;综述具有精细划分的基于特定年龄儿童的大脑发育图谱,为未来的发育研究提供了强有力的研究工具的参考。这一综述有助于促进跨学科研究,推动儿童和青少年大脑发育领域的进展,从而为青少年的教育、健康和神经疾病研究提供更好的指导。

    儿童青少年发育大脑图谱大脑模板磁共振成像(MRI)发育数据集预处理

    室内场景拟人交互研究进展

    杜韬胡瑞珍刘利斌弋力...
    1575-1606页
    查看更多>>摘要:人类智能是在与环境交互中进化的,因而如何实现智能体与环境的自主交互是推进智能演化的关键。环境自主交互是一项涉及计算机图形学、计算机视觉和机器人等多个学科领域的研究课题,引起广泛的关注和探究,学术界已围绕这一热点研究问题从不同视角和技术维度开展了一系列研究工作。本文着眼于室内场景拟人交互,全面梳理数字人与机器人在室内环境下学习完成特定交互任务过程中需要涉及的仿真交互平台、场景交互数据和交互生成算法3方面基本要素的研究进展。在仿真交互环境搭建方面,本文梳理了仿真环境涉及的仿真技术和研究进展,并对代表性的拟人交互仿真平台进行了介绍;在场景交互数据构建方面,本文从场景交互感知数据集、场景交互运动数据集以及交互数据规模的高效扩充3方面对国内外研究现状进行了详细介绍;在拟人交互感知与生成方面,本文介绍了以交互为导向的场景可供性分析的相关工作,并以交互生成为线索,分别梳理了数字人—场景交互生成、机器人—场景交互生成的相关工作。基于对国内外相关工作的梳理和讨论,最后从交互仿真、交互数据、交互感知和交互生成4个方面,总结了该领域目前仍面临的挑战,并对未来的发展趋势进行了展望。

    环境交互交互仿真交互数据交互感知交互生成

    多模态情感识别与理解发展现状及趋势

    陶建华范存航连政吕钊...
    1607-1627页
    查看更多>>摘要:情感计算是人工智能领域的一个重要分支,在交互、教育、安全和金融等众多领域应用广泛。单纯依靠语音、视频单一模态的情感识别并不符合人类对情感的感知模式,在受到干扰的情况下识别准确率会迅速下降。为了充分挖掘不同模态数据的互补性,多模态融合的情感识别研究正日益受到研究人员的广泛重视。本文分别从多模态情感识别概述、多模态情感识别与理解、抑郁症情感障碍检测及干预3个维度介绍多模态情感计算研究现状。本文认为具备可扩展性的情感特征设计、基于大模型迁移学习的识别方法将是未来的发展方向,并在解决抑郁、焦虑等情感障碍方面的作用日益凸显。

    情感识别多模态融合人机交互抑郁状态评估情感障碍干预认知行为疗法

    高质量超声成像与重建研究综述

    李云舒马宸黄丽红高雪...
    1628-1645页
    查看更多>>摘要:医学超声作为一种无创、无辐射和实时医学成像模态,在重大疾病早期诊断和精准诊疗领域发挥重要作用。影像分辨率是超声仪器的核心指标,也是影响临床精准诊疗的关键。近年来,超声成像设备呈现多样化的发展趋势,以满足不同的临床应用场景,如超快速成像设备、便携成像设备等。然而,这些超声设备通常以牺牲成像质量来实现特定应用场景的要求,影响了其临床可用性。因此,为提升医学超声设备的诊断能力,研究如何获得高质量超声图像至关重要。本文回顾了近年来高质量超声图像成像的相关工作,从波束形成算法和高质量超声重建算法两方面进行介绍,波束形成算法方面,介绍了以延时叠加方法为代表的传统的非自适应方法,以及4类成像效果更优越但计算复杂度更高的自适应的波束形成方法,并对波束形成的深度学习类方法进行了简要介绍。对于高质量超声重建算法的讨论,则是从传统方法和深度学习方法两方面展开,并重点介绍了在高质量超声重建算法方面具有更广阔应用前景的深度学习技术,包括卷积神经网络方法、生成对抗网络方法等。最后,本文从研究方法的侧重点等方面比较国内外研究进展,并讨论了未来发展趋势。

    超声成像波束形成自适应成像图像重建高分辨率

    像感域(Raw域)底层视觉重建技术进展

    岳焕景杨文瀚李重仪杨铀...
    1646-1666页
    查看更多>>摘要:底层视觉重建技术旨在在受限的成像条件下重建高质量图像/视频,对后续视觉处理与呈现具有重要意义。由于像感域数据(raw data)具有高位宽、与感光量成线性响应等特点,近年来基于像感域的视觉重建技术在学术界和工业界获得的关注日益提高。本文聚焦于6种代表性视觉重建任务,包括低光增强与去噪、超分辨率、高动态范围重建、去摩尔纹、多任务联合重建以及数据生成,重点综述了深度学习驱动的像感域视觉重建领域的进展:系统地总结了领域代表性方法,概述各类方法的优势与局限,分析了不同任务中像感域数据相较于颜色域数据(经降噪、去马赛克、白平衡、色调映射和颜色空间转换(如RGB、sRGB等)等处理之后的数据)的独特属性与优势;梳理了各个领域的开源数据集,包括图像数据集、快速连拍数据集以及视频数据集,总结了数据集的构造方法以及配对数据的空间/时间对齐策略,为后续研究的数据集创建提供了参考与指引;总结了现有方法存在的问题与困境,展望了像感域底层视觉重建的发展趋势。

    像感域(Raw域)图像重建Raw域图像(视频)低光增强Raw域图像(视频)去噪Raw域图像(视频)超分辨率Raw域图像(视频)高动态范围重建Raw域图像(视频)去摩尔纹

    恶劣场景下视觉感知与理解综述

    汪文靖杨文瀚方玉明黄华...
    1667-1684页
    查看更多>>摘要:恶劣场景下采集的图像与视频数据存在复杂的视觉降质,一方面降低视觉呈现与感知体验,另一方面也为视觉分析理解带来了很大困难。为此,系统地分析了国际国内近年恶劣场景下视觉感知与理解领域的重要研究进展,包括图像视频与降质建模、恶劣场景视觉增强、恶劣场景下视觉分析理解等技术。其中,视觉数据与降质建模部分探讨了不同降质场景下的图像视频与降质过程建模方法,涵盖噪声建模、降采样建模、光照建模和雨雾建模。传统恶劣场景视觉增强部分探讨了早期非深度学习的视觉增强算法,包括直方图均衡化、视网膜大脑皮层理论和滤波方法等。基于深度学习模型的恶劣场景视觉增强部分则以模型架构创新的角度进行梳理,探讨了卷积神经网络、Transformer模型和扩散模型等架构。不同于传统视觉增强的目标为全面提升人眼对图像视频的视觉感知效果,新一代视觉增强及分析方法考虑降质场景下机器视觉对图像视频的理解性能。恶劣场景下视觉理解技术部分探讨了恶劣场景下视觉理解数据集和基于深度学习模型的恶劣场景视觉理解,以及恶劣场景下视觉增强与理解协同计算。论文详细综述了上述研究的挑战性,梳理了国内外技术发展脉络和前沿动态。最后,根据上述分析展望了恶劣场景下视觉感知与理解的发展方向。

    恶劣场景视觉感知视觉理解图像视频增强图像视频处理深度学习

    少数民族文字文本分析与识别的研究进展

    王维兰胡金水魏宏喜库尔班·吾布力...
    1685-1713页
    查看更多>>摘要:对于少数民族古籍的保护与传承,国家予以高度重视,并强调了对这些不可再生文化资源透彻数字化的重要性。随着文档图像分析与识别技术的不断进步,对少数民族文字的文本分析与识别研究受到广泛关注,并取得显著成就,成为人工智能应用研究的一个热点领域。然而,由于少数民族文字种类繁多、应用场景多样及数据集的稀缺性等问题,这一研究领域仍面临诸多挑战。本文旨在总结先前的工作,并为未来的研究提供支持,重点讨论了印刷体文本、联机手写、古籍文档及场景文字识别等任务,概述了国内外在少数民族文种识别领域的发展和最新成果。首先阐明了少数民族文字文本分析与识别的重要性及其价值,介绍了特定少数民族文字及其古籍文档的特征。然后,回顾了这一领域的发展历史和现状,分析并总结了传统方法的代表性成果及其应用;详细讨论了研究重点向深度神经网络模型和深度学习方法的全面转移,这一转变使得各文种的识别性能得到了显著提升。最后,基于相关分析,本文指出了在不同文种文档分析与识别中存在的精度和泛化能力等方面的不足,以及与汉文文本分析与识别的差异;面对少数民族文字文本识别领域的主要困难与挑战,展望了未来的研究趋势和技术发展目标。

    少数民族文字文档分析与识别印刷体文本识别手写识别古籍文档识别场景文字识别