首页期刊导航|图学学报
期刊信息/Journal information
图学学报
图学学报

李华

双月刊

2095-302X

txb@cgn.net.cn txxb_2011@163.com

010-82317091

100191

北京海淀学院路37号中国图学学会学报编辑部

图学学报/Journal Journal of GraphicsCSCD北大核心CSTPCD
查看更多>>本刊是中国工程图学会主办的全国中文核心期刊和全国科技文统计用刊。本刊面向国内外公开发行,主要刊载图学专业有关图学理论与应用、图学教育理论、计算机图学与CAD、科学可视化、工业设计、图样标准化等有关方面的学术论文,重要研究成果和技术经验总结,国内外重要论著的评述和学术动态。
正式出版
收录年代

    虚拟现实中的大模型技术研究进展与趋势

    杨浩中孔笑宇辜睿坤汪淼...
    1117-1131页
    查看更多>>摘要:随着计算机技术的发展,虚拟现实(VR)技术日趋成熟,已在多种应用场景下为用户带来了沉浸式和高质量的体验,成为计算机图形学与人机交互领域的重要研究方向.大模型技术作为近来备受关注的研究热点,吸引了大量学者的关注,并为各个领域的经典问题提供了新的解决方法和思路.然而,目前在VR领域,关于大模型技术应用进展的综述性研究仍然匮乏.为弥补这一研究空白并进一步启发后续工作,本文搜集、整理并归纳了近年来在VR环境中与大模型相关的研究论文,对大模型技术的原理和代表性模型分类概述,并从内容生成和人机交互 2 个方面详细分析大模型技术的研究进展和应用场景,最后总结探讨了VR环境中使用大模型所面临的困难和挑战,并展望其未来发展趋势.

    虚拟现实大模型内容生成人机交互综述

    大模型技术在电力行业的应用展望

    刘冀辰李金星吴佳张威...
    1132-1144页
    查看更多>>摘要:人工智能(AI)技术已广泛应用于电力行业多个专业领域,正在推动电力行业向智能化、自动化的方向发展.特别是在图学领域,AI 大模型的应用已经成为研究热点,其在图像识别、模式识别以及图数据分析等方面展现出巨大潜力.应用大模型解决电力行业的图像识别、自然语言处理、业务内容分析等专业问题,可大幅提升电力行业各业务领域的效率和准确性.以大模型在电力调度、输电、营销等场景的应用展望为主线,首先介绍了人工智能大模型技术的研究背景、发展历程以及技术特征.其次,综述了 AI 技术在电力调度故障处置、输电无人机巡检、电力营销客户服务等专业的应用现状,分析了目前电力行业研究应用大模型存在的问题与挑战.最后,梳理了大模型技术在电力行业的发展趋势和技术应用分析,并对应用场景进行了展望.

    大模型计算机视觉电网故障处置输电巡检客户服务

    面向无人机航拍图像的目标检测研究综述

    李琼考月英张莹徐沛...
    1145-1164页
    查看更多>>摘要:随着无人机和计算机视觉技术的快速发展与深度融合,面向无人机航拍图像的目标检测研究受到越来越多的关注,已广泛应用于精准农业、动物监测、城市管理、应急救援等领域.与普通视角下拍摄的图像相比,无人机航拍图像具有视野更广、目标尺寸显著缩小、视角和尺度灵活多变等特点,无法完全适用普通视角下的目标检测方法.基于此,首先详细回顾了普通视角下目标检测方法的研究进展,包括传统方法、深度学习方法和基于大模型的方法,随后综述了现有目标检测方法针对无人机航拍图像目标检测中的图像质量下降、尺度和视角变化、小目标检测难度大、复杂背景及遮挡、大视场中的不均衡,以及实时性要求高等 6 大难点问题提出的创新策略和优化方法.此外,归纳总结了无人机航拍图像目标检测数据集,并在 2 个具有代表性的数据集上对现有方法进行性能分析.最后,根据无人机航拍图像目标检测领域仍存在的问题,展望了未来可能的研究方向,为无人机航拍图像目标检测的发展和应用提供参考.

    无人机航拍图像深度学习计算机视觉目标检测多尺度目标

    大模型引导的高效强化学习方法

    徐沛黄凯奇
    1165-1177页
    查看更多>>摘要:深度强化学习作为支撑AlphaGo和ChatGPT等突破性工作的关键技术,已成为前沿科学的研究热点.在实际应用上,深度强化学习作为一种重要的智能决策技术,被广泛应用于视觉场景的避障、虚拟场景的优化生成、机器臂控制、数字化设计与制造、工业设计决策等多种规划决策任务.然而,深度强化学习在实际应用中面临样本效率低下的挑战,严重限制了其应用效果.为缓解这一问题,针对现有强化学习探索机制的不足,将大模型技术与多种主流探索技术相结合,提出了一种基于大模型引导的高效探索方法,以提升样本效率.通过利用大模型来指导深度强化学习智能体的探索行为,该方法在多个国际公认的测试环境中显示出显著的性能提升,不仅展示了大模型技术在深度强化学习探索问题中的潜力,也为实际应用中改善样本效率提供了新的解决思路.

    深度强化学习大语言模型高效探索

    大语言模型驱动的UI评估系统

    陈晓皎束云峰汪睿涵周佳欢...
    1178-1187页
    查看更多>>摘要:用户界面(UI)设计的质量直接影响产品的可用性和用户体验.设计师在UI设计过程中常面临一致性和可访问性问题,这些问题不仅增加了用户的认知负荷,还影响了使用效率.尽管设计师对此有所认识,但目前缺乏全面的知识和工具来进行自动识别和解决这些问题.为此提出了一套全面的 UI 设计评估准则,涵盖色彩、文本、布局、控件和图标 5 个关键方面,专门针对UI设计的一致性问题和可访问性问题.基于这套评估准则,提出了针对UI一致性和可访问性评估的提示词模版,以提升大语言模型(LLMs)如GPT-4 在UI评估任务中的准确率.此外,开发了基于GPT-4 模型的UI评估系统.该UI评估系统能够深入理解UI设计内容,依据评估准则自动检测UI设计问题,并提供针对性改进建议,帮助设计师优化UI设计.实验结果表明,使用提示词模版显著提高了 GPT-4 模型在 UI 评估中的准确性.用户研究表明,设计师在设计实践中使用该 UI 评估系统,可以显著提升 UI 设计的质量,从而提升产品可用性和用户体验.该系统为设计师提供了一种自动化UI评估工具,为提升UI设计质量提供了新思路.

    图形用户界面大语言模型UI评估一致性可访问性

    基于检索增强大语言模型的MBSE智能设计方法

    于晗陈治源熊熙瑞戴原星...
    1188-1199页
    查看更多>>摘要:基于模型的系统工程(MBSE)是当今产品数字化设计的重要方法之一.然而由于系统工程极高的专业性和产品极高的复杂关联性,在复杂产品上应用基于模型的系统工程十分困难.针对这一问题,一种基于检索增强大语言模型的智能化设计方法被首次提出.方法首先建立了面向模型对象的多模态向量表示方法,通过检索增强生成技术,引入领域知识和建模规则,引导大模型更准确地生成MBSE模型视图;其次,提出了基于MBSE元素关联的视图优化方法,通过上下文交互结果交叉验证模型准确性;再次,通过大语言模型对建模工具接口调用和对候选零件的选择,实现设计模型和物料树的生成;最后,构建了一个包含 24 个场景模型的数据集对方法进行验证,实验结果表明该方法具有较高的准确性和可用性.以喷水推进装置为建模对象的案例研究也表明该方法能在保持可用性的基础上有效提升建模效率,对于基于MBSE方法的智能化具有重要意义.

    基于模型的系统工程大语言模型智能设计提示词工程计算机辅助设计

    融合大模型和数字孪生的公共建筑智慧运维系统

    许璟琳彭阳欧金武谈骏杰...
    1200-1206页
    查看更多>>摘要:为解决基于数字孪生的建筑智慧运维面临的系统操作复杂、海量建设文档信息难以查阅、复杂场景决策支持弱等问题,构建了融合大模型和数字孪生的建筑智慧运维系统,创新了基于检索增强生成的海量信息高效检索技术、基于大模型的建筑运维服务高效调用技术、基于群体智能的楼宇智能调适技术等,在3类典型运维场景进行了应用验证,表明融合大模型和数字孪生构建的公共建筑智慧运维系统,有助于提供运维个性化服务、提升用户体验、提供复杂决策支持,实现更便捷、更舒适、更安全、更绿色的公共建筑智慧运维管理.

    大语言模型数字孪生公共建筑智慧运维

    机理与数据驱动的物理仿真计算范式及引擎架构

    何小伟石剑刘树森任丽欣...
    1207-1221页
    查看更多>>摘要:物理仿真作为现代工业软件的基石,其计算范式可分为机理驱动、数据驱动及混合驱动等模式.面对多样化物理仿真需求,构建一个既能灵活适应各类物理仿真计算范式,又能实现不同计算范式之间高效耦合的通用引擎架构,已成为软件设计与开发领域亟待解决的关键难题与挑战.针对该问题,提出面向多物理仿真计算范式的FNMS架构 Data Field-Node-Module-Scene Graph,其核心在于四层结构的设计:数据域(Data field)、节点(Node)、模块(Module)与场景图(Scene graph).具体而言,数据域层为仿真过程提供统一的数据管理与访问接口,解决物理仿真计算数据共享的便捷性与高效性;模块层封装各类物理仿真算法,实现算法的模块化与可重用,解决仿真计算、渲染与交互的异步协同问题;节点层通过数据与算法模块的解耦实现算法在不同物理仿真计算范式之间的复用,同时便于实现多物理场耦合过程的交换与共享;而场景图层通过将节点组织成有向无环图,支撑多种物理仿真计算范式的高效耦合计算.通过该四层结构的结合,FNMS架构不仅能提升物理仿真的计算效率与灵活性,更为跨学科、跨领域的物理仿真研究提供了强有力的技术支持.

    FNMS引擎架构机理驱动数据驱动物理仿真计算范式

    基于视觉-文本损失的开放词汇检测大模型对抗样本生成方法

    师皓王澍韩健鸿罗兆亿...
    1222-1230页
    查看更多>>摘要:近期,开放词汇检测(OVD)因其在处理未知类别物体识别上的潜力而成为计算机视觉领域的研究焦点.YOLO-World作为该领域的代表性方法,在具有强大实时检测能力的同时,由深度学习网络脆弱性引起的安全问题也不可忽视.基于此背景,提出了一种针对YOLO-World算法的白盒对抗样本生成方法,为识别和量化大模型安全漏洞提供思路.方法以YOLO-World网络反向传播过程中产生的梯度数据作为依据,对预设的扰动进行优化,将优化后的扰动添加至原始样本形成对抗样本.首先利用模型输出中的置信度和边界框信息作为初步优化依据,形成具有一定攻击效果的对抗样本;再加上根据 YOLO-World 模型中的 RepVL-PAN 结构设计的视觉-文本融合损失,进一步提升对抗样本对模型的破坏性;最后融入扰动量损失对总扰动量进行约束,形成扰动量有限的对抗样本.通过生成的对抗样本可以根据实际需要实现置信度降低、检测框偏移等攻击目标,实验结果表明,该方法对YOLO-World模型具有显著的破坏能力,经过在LIVS数据集上测试,检测平均精度下降至 5%以下.

    开放词汇检测YOLO-World对抗样本视觉-文本融合损失稀疏扰动

    基于隐式知识增强的KB-VQA知识检索策略研究

    郑洪岩王慧刘昊张志平...
    1231-1242页
    查看更多>>摘要:基于知识的视觉问答(KB-VQA)不仅需要图像信息和问题信息,还需要从知识源中获取到相关知识才能回答问题.现有方法通常使用检索器从知识库中检索外部知识,或直接从大型模型中得到隐式知识,但依靠仅有的图文信息往往不足以支撑获取相关知识.针对检索阶段的查询和外部知识,提出了一种强化检索策略.在查询端,利用大模型中的隐式知识来增强现有的图像和问题信息,增强后的图文信息可以帮助检索器从知识库中定位到更准确的外部知识.在外部知识端,提出了预模拟交互模块来增强外部知识,该模块为知识向量生成一个新的轻量级向量,通过二者之间预先交互,使得检索器可以提前模拟查询和知识段落的交互,以便更好地捕捉查询和知识段落的语义关系.实验结果表明,改进后的模型仅需检索少量知识便可以在 OK-VQA 数据集上达到61.3%的准确率.

    视觉问答知识检索图文增强预模拟交互多模态