首页期刊导航|中国图象图形学报
期刊信息/Journal information
中国图象图形学报
中国图象图形学报

李小文

月刊

1006-8961

jig@irsa.ac.cn

010-64807995 8261442

100101

北京9718信箱

中国图象图形学报/Journal Journal of Image and GraphicsCSCD北大核心CSTPCD
查看更多>>本刊是集计算机图象图形高科技理论与应用研究成果、成果产品化与商情动态于一体的综合性学术期刊。是核心期刊、权威性杂志。作为中国图象图形学学会的会刊,利用学会在国内外广泛的科技信息渠道、全方位多层面的学科交叉应用,积极向产业界宣传科技成果,热心向科技界推荐最新产品。
正式出版
收录年代

    道路结构特征下的车道线智能检测

    张翔唐小林黄岩军
    123-134页
    查看更多>>摘要:目的 在智能网联汽车系统开发中,复杂环境下的车道线检测是关键环节之一.目前的车道线检测算法大都基于颜色、灰度和边缘等视觉特征信息,检测准确度受环境影响较大.而车道线的长度、宽度及方向等特征的规律性较强,具有序列化和结构关联的特点,不易受到环境影响.为此,采用视觉信息与空间分布关系相结合的方案,来提高复杂环境下的车道线检测能力.方法 首先针对鸟瞰图中车道线在横向和纵向上分布密度不同的特点,将目标检测算法YOLO v3(you only look once v3)的网格密度由SxS改进为S x2S,得到的YOLO v3(Sx2S)更适于小尺寸、大宽高比物体的检测;然后利用车道线序列化和结构相互关联的特点,在双向循环门限单元(bidirec-tional gated recurrent unit,BGRU)的基础上,提出基于车道线分布关系的车道线检测模型(BGRU-Lane,BGRU-L).最后利用基于置信度的D-S(Dempster-Shafer)算法融合YOLO v3(S x2S)和BGRU-L的检测结果,提高复杂场景下的车道线检测能力.结果 采用融合了视觉信息和空间分布关系的车道线检测模型,在KITTI(Karlsruhe Institute of Technology and Toyoko Technological Institute)交通数据集上的平均精度均值达到了90.28%,在欧洲卡车模拟2常规场景(Euro Truck Simulator 2 convention,ETS2_conv)和欧洲卡车模拟2复杂场景(Euro Truck Simulator 2 complex,ETS2_complex)下的平均精度均值分别为92.49%和91.73%.结论 通过增大YOLO v3纵向的网格密度,可显著提高模型检测小尺寸、大宽高比物体的准确度;序列化和结构关联是车道线的重要属性,基于空间分布关系的BGRU-L模型的准确度受环境影响较小.两种模型的检测结果在经过D-S融合后,在复杂场景下具有较高的准确度.

    机器视觉车道线检测网格密度空间分布D-S融合

    适用全速域大曲率路径的自动驾驶跟踪算法

    张龑郑颖鲍泓
    135-142页
    查看更多>>摘要:目的 路径跟踪是自动驾驶汽车根据感知、决策和规划结果正确沿道路行驶的关键部分.目前路径跟踪算法难以在全速域、复杂路径场景和高自由度动力学模型下取得优异的性能,并且未考虑与纵向控制的耦合特性,限制了控制算法的跟踪性能.针对以上问题,提出了一种基于速度自适应预瞄的无模型转向控制算法.方法 根据车辆与跟踪路径的横向偏差与角度偏差,建立车辆方向盘输出控制量方程,该方法实现了在动力学高度复杂情况和跟踪路径可导情况下的低速稳定跟踪.同时根据车辆纵向速度自适应设置跟踪预瞄距离,并将速度耦合参数加入方程,实现了车辆全速域、全路径的稳定跟踪.结果 本文在PanoSim自动驾驶仿真系统和Simulink仿真软件进行仿真实验,在高自由度动力学模型下,本文算法实现在超高速(>220 km/h)直线及小曲率跟踪路径中横向偏差变化量△d的模|△d| <0.1 m、在高速(>150km/h)大曲率弯道跟踪路径中|△d|<0.3 m的性能.结论 本文提出的基于速度自适应预瞄的无模型转向控制算法可以实现全速域、大曲率的路径稳定跟踪.

    自动驾驶转向控制路径跟踪预瞄速度耦合PanoSim

    伪3D卷积神经网络与注意力机制结合的疲劳驾驶检测

    庄员戚湧
    143-153页
    查看更多>>摘要:目的 复杂环境下的疲劳驾驶检测是一个具有挑战性的技术问题.为了充分利用驾驶员面部特征信息与时间特征,提出一种基于伪3D(Pseudo-3D,P3D)卷积神经网络(convolutional neural network,CNN)与注意力机制的驾驶疲劳检测方法.方法 采用伪3D卷积模块进行时空特征学习;提出P3D-Attention模块,利用P3D的结构融合双通道注意力模块和适应的空间注意力模块,提高对重要通道特征的相关度,增加特征图的全局相关性,将多层深度卷积特征进行融合.利用双通道注意力模块分别在视频帧之间和每一帧的通道上施加关注,去除背景和噪声对识别的干扰,使用自适应空间注意模块使模型训练更快、收敛更好;使用2D全局平均池化层替代3D全局平均池化层获得更具表达能力的特征,进而提高网络收敛速度;运用softmax分类层进行分类.结果 在公共数据集YawDD(a yawning detection dataset)上开展对比实验,本文方法在测试集上的Fl-score检测准确率达到99.89%,在打哈欠类别上召回率达到100%;在数据集UTA-RLDD(University of Texas at Arlington real-life drowsiness dataset)上,本文方法在测试集上的F1-score检测准确率达到99.64%,在困倦类别上召回率达到100%;与Inception-V3融合LSTM(long short-term memory)的方法相比,本文方法模型大小为42.5 MB,是其模型大小的1/9,本文方法预测时间约660 ms,是其11%左右.结论 提出一种基于伪3D卷积神经网络与注意力机制的驾驶疲劳检测方法,利用注意力机制进一步分析哈欠、眨眼和头部特征运动,将哈欠行为与说话行为动作很好地区分开来.

    3D卷积神经网络伪3D卷积全局平均池化注意力机制疲劳驾驶

    基于眼部自商图—梯度图共生矩阵的疲劳驾驶检测

    潘剑凯柳政卿王秋成
    154-164页
    查看更多>>摘要:目的 疲劳驾驶是引发车辆交通事故的主要原因之一,针对现有方法在驾驶员面部遮挡情况下对眼睛状态识别效果不佳的问题,提出了一种基于自商图—梯度图共生矩阵的驾驶员眼部疲劳检测方法.方法 利用以残差网络(residual network,ResNet)为前置网络的SSD(single shot multibox detector)人脸检测器来获取视频中的有效人脸区域,并通过人脸关键点检测算法分割出眼睛局部区域图像;建立驾驶员眼部的自商图与梯度图共生矩阵模型,分析共生矩阵的数字统计特征,选取效果较好的特征用以判定人眼的开闭状态;结合眼睛闭合时间百分比(per-centage of eyelid closure,PERCLOS)与最长闭眼持续时间(maximum closing duration,MCD)两个疲劳指标来判别驾驶员的疲劳状态.结果 在六自由度汽车性能虚拟仿真实验平台上模拟汽车驾驶,采集并分析驾驶员面部视频,本文方法能够有效识别驾驶员面部遮挡时眼睛的开闭状态,准确率高达99.12%,面部未遮挡时的识别精度为98.73%,算法处理视频的速度约为32帧/s.对比方法1采用方向梯度直方图特征与支持向量机分类器相结合的人脸检测算法,并以眼睛纵横比判定开闭眼状态,在面部遮挡时识别较弱;以卷积神经网络(convolutional neural net-work,CNN)判别眼睛状态的对比方法2虽然在面部遮挡情况下的准确率高达98.02%,但眨眼检测准确率效果不佳.结论 基于自商图—梯度图共生矩阵的疲劳检测方法能够有效识别面部遮挡时眼睛的开闭情况和驾驶员的疲劳状态,具有较快的检测速度与较高的准确率.

    疲劳驾驶人脸检测人脸关键点检测自商图共生矩阵眼睛闭合时间百分比(PERCLOS)

    结合局部平面参数预测的无监督单目图像深度估计

    周大可田径杨欣
    165-175页
    查看更多>>摘要:目的 无监督单目图像深度估计是3维重建领域的一个重要方向,在视觉导航和障碍物检测等领域具有广泛的应用价值.针对目前主流方法存在的局部可微性问题,提出了一种基于局部平面参数预测的方法.方法 将深度估计问题转化为局部平面参数估计问题,使用局部平面参数预测模块代替多尺度估计中上采样及生成深度图的过程.在每个尺度的深度图预测中根据局部平面参数恢复至标准尺度,然后依据针孔相机模型得到标准尺度深度图,以避免使用双线性插值带来的局部可微性,从而有效规避陷入局部极小值,配合在网络跳层连接中引入的串联注意力机制,提升网络的特征提取能力.结果 在KITTI(Karlsruhe Institute of Technology and Toyota Technolog-ical Institute at Chicago)自动驾驶数据集上进行了对比实验以及消融实验,与现存无监督方法和部分有监督方法进行对比,相比于最优数据,误差性指标降低了10%~20%,准确性指标提升了2%左右,同时,得到的稠密深度估计图具有清晰的边缘轮廓以及对反射区域更优的鲁棒性.结论 本文提出的基于局部平面参数预测的深度估计方法,充分利用卷积特征信息,避免了训练过程中陷入局部极小值,同时对网络添加几何约束,使测试指标及视觉效果更加优秀.

    无监督学习单目深度估计注意力机制局部平面参数估计局部可微性

    深度纯追随的拟人化无人驾驶转向控制模型

    单云霄黄润辉何泽龚志豪...
    176-185页
    查看更多>>摘要:目的 在无人驾驶系统技术中,控制车辆转向以跟踪特定路径是实现驾驶的关键技术之一,大量基于传统控制的方法可以准确跟踪路径,然而如何在跟踪过程中实现类人的转向行为仍是当前跟踪技术面临的挑战性问题之一.现有传统转向模型并没有参考人类驾驶行为,难以实现过程模拟.此外,现有大多数基于神经网络的转向控制模型仅仅以视频帧作为输入,鲁棒性和可解释性不足.基于此,本文提出了一个融合神经网络与传统控制器的转向模型:深度纯追随模型(deep pure pursuit,deep PP).方法 在deep PP中,首先利用卷积神经网络(convolu-tional neural network,CNN)提取驾驶环境的视觉特征,同时使用传统的纯追随(pure pursuit,PP)控制器融合车辆运动模型以及自身位置计算跟踪给定的全局规划路径所需的转向控制量.然后,通过拼接PP的转向结果向量和视觉特征向量得到融合特征向量,并构建融合特征向量与人类转向行为之间的映射模型,最终实现预测无人驾驶汽车转向角度.结果 实验将在CARLA(Center for Advanced Research on Language Acquisition)仿真数据集和真实场景数据集上进行,并与Udacity挑战赛的CNN模型和传统控制器进行对比.实验结果显示,在仿真数据集的14个复杂天气条件下,deep PP比CNN模型和传统转向控制器更贴近无人驾驶仪的转向指令.在使用均方根误差(root mean square error,RMSE)作为衡量指标时,deep PP相比于CNN模型提升了50.28%,相比于传统控制器提升了35.39%.最后,真实场景实验验证了提出的模型在真实场景上的实用性.结论 本文提出的拟人化转向模型,综合了摄像头视觉信息、位置信息和车辆运动模型信息,使得无人驾驶汽车的转向行为更贴近人类驾驶行为,并在各种复杂驾驶条件下保持了高鲁棒性.

    无人驾驶端到端转向模型路径跟踪深度学习纯追随

    Edge-guided GAN:边界信息引导的深度图像修复

    刘坤华王雪辉谢玉婷胡坚耀...
    186-197页
    查看更多>>摘要:目的 目前大多数深度图像修复方法可分为两类:色彩图像引导的方法和单个深度图像修复方法.色彩图像引导的方法利用色彩图像真值,或其上一帧、下一帧提供的信息来修复深度图像.若缺少相应信息,这类方法是无效的.单个深度图像修复方法可以修复数据缺失较少的深度图像.但是,无法修复带有孔洞(数据缺失较大)的深度图像.为解决以上问题,本文将生成对抗网络(generative adversarial network,GAN)应用于深度图像修复领域,提出了一种基于GAN的单个深度图像修复方法,即Edge-guided GAN.方法 首先,通过Canny算法获得待修复深度图像的边界图像,并将此两个单通道图像(待修复深度图像和边界图像)合并成一个2通道数据;其次,设计Edge-guided GAN高性能的生成器、判别器和损失函数,将此2通道数据作为生成器的输入,训练生成器,以生成器生成的深度图像(假值)和深度图像真值为判别器的输入,训练判别器;最终得到深度图像修复模型,完成深度图像修复.结果 在Apollo scape数据集上与其他4种常用的GAN、不带边界信息的Edge-guided GAN进行实验分析.在输入尺寸为256 × 256像素,掩膜尺寸为32 ×32像素情况下,Edge-guided GAN的峰值信噪比(peak signal-to-noise ratio,PSN)比性能第2的模型提高了15.76%;在掩膜尺寸为64 × 64像素情况下,Edge-guided GAN的PSNR比性能第2的模型提高了18.64%.结论 Edge-guided GAN以待修复深度图像的边界信息为其修复的约束条件,有效地提取了待修复深度图像特征,大幅度地提高了深度图像修复的精度.

    生成对抗网络深度图像修复方法Edge-guidedGAN边界信息Apolloscape数据集

    引入概率分布的深度神经网络贪婪剪枝

    胡骏黄启鹏刘嘉昕刘威...
    198-207页
    查看更多>>摘要:目的 深度学习在自动驾驶环境感知中的应用,将极大提升感知系统的精度和可靠性,但是现有的深度学习神经网络模型因其计算量和存储资源的需求难以部署在计算资源有限的自动驾驶嵌入式平台上.因此为解决应用深度神经网络所需的庞大计算量与嵌入式平台有限的计算能力之间的矛盾,提出了一种基于权重的概率分布的贪婪网络剪枝方法,旨在减少网络模型中的冗余连接,提高模型的计算效率.方法 引入权重的概率分布,在训练过程中记录权重参数中较小值出现的概率.在剪枝阶段,依据训练过程中统计的权重概率分布进行增量剪枝和网络修复,改善了目前仅以权重大小为依据的剪枝策略.结果 经实验验证,在Cifar10数据集上,在各个剪枝率下本文方法相比动态网络剪枝策略的准确率更高.在ImageNet数据集上,此方法在较小精度损失的情况下,有效地将AlexNet,VGG(visual geometry group)16的参数数量分别压缩了5.9倍和11.4倍,且所需的训练迭代次数相对于动态网络剪枝策略更少.另外对于残差类型网络ResNet34和ResNet50也可以进行有效的压缩,其中对于Res-Net50网络,在精度损失增加较小的情况下,相比目前最优的方法HRank实现了更大的压缩率(2.1倍).结论 基于概率分布的贪婪剪枝策略解决了深度神经网络剪枝的不确定性问题,进一步提高了模型压缩后网络的稳定性,在实现压缩网络模型参数数量的同时保证了模型的准确率.

    深度学习神经网络模型压缩概率分布网络剪枝

    开放道路中匹配高精度地图的在线相机外参标定

    廖文龙赵华卿严骏驰
    208-217页
    查看更多>>摘要:目的 相机外参标定是ADAS(advanced driver-assistance systems)等应用领域的关键环节.传统的相机外参标定方法通常依赖特定场景和特定标志物,无法实时实地进行动态标定.部分结合SLAM(simultaneous localiza-tion and mapping)或VIO(visual inertia odometry)的外参标定方法依赖于点特征匹配,且精度往往不高.针对ADAS应用,本文提出了一种相机地图匹配的外参自校正方法.方法 首先通过深度学习对图像中的车道线进行检测提取,数据筛选及后处理完成后,作为优化问题的输入;其次通过最近邻域解决车道线点关联,并在像平面内定义重投影误差;最后,通过梯度下降方法迭代求解最优的相机外参矩阵,使得像平面内检测车道线与地图车道线真值重投影匹配误差最小.结果 在开放道路上的测试车辆显示,本文方法经过多次迭代后收敛至正确的外参,其旋转角精度小于0.2°,平移精度小于0.2 m,对比基于消失点或VIO的标定方法(精度为2.2°及0.3 m),本文方法精度具备明显优势.同时,在相机外参动态改变时,所提出方法可迅速收敛至相机新外参.结论 本文方法不依赖于特定场景,支持实时迭代优化进行外参优化,有效提高了相机外参精确度,精度满足ADAS需求.

    外参标定地图匹配车道线梯度下降在线标定

    利用边缘计算的多车协同激光雷达SLAM

    崔明月钟仕鹏刘思瑶李博洋...
    218-228页
    查看更多>>摘要:目的 激光雷达实时定位与建图(simultaneous localization and mapping,SLAM)是智能机器人领域的重要组成部分,通过对周边环境的3维建模,可以实现无人驾驶车辆的自主定位和精准导航.针对目前单个车辆激光雷达建图周期长、算力需求大的现状,提出了基于边缘计算的多车协同建图方法,能够有效地负载均衡,在保证单个车辆精准定位的同时,增加多个车辆之间的地图重用性.方法 构建基于阈值的卸载函数,论证边缘计算下的多车卸载决策属于势博弈问题,设计实现基于边缘计算的势博弈卸载算法,在模型具有纳什均衡的基础上实现任务调度,引入α-Nash最佳响应动态加速算法收敛,并采用由粗到细的点云匹配方法提高地图匹配性能,实现车辆的精准定位.最后,基于地图的相对可信度,高效地合并基站覆盖范围内的多个车辆的建图数据.结果 实验表明,基于博弈论的调度方法在保证定位可靠性的前提下,能够有效地实现多车协同SLAM,且多车协同的定位与建图结果与使用载波相位差分技术(real-time kinematic,RTK)的高精度差分全球定位系统(differential global positioning system,DGPS)结果足够接近,相比于单车建图而言,横向定位和纵向定位的平均精度分别提高了6.0倍和3.9倍.结论 本文方法解决了基于边缘计算的多车协同激光雷达SLAM问题,借助边缘服务器的计算资源,无人驾驶车辆可以有效地减少本地资源需求和定位延迟.该方法通过各个车辆之间的资源博弈,最终实现纳什均衡.实现基于边缘计算的激光雷达定位服务,且高效地完成多车之间的地图合并,仿真和真实环境中的实验表明了方法的有效性.

    边缘计算激光雷达实时定位与构图(SLAM)任务卸载多车协同无人驾驶