首页|基于注意力机制的视线跟踪及空间人机交互应用研究

基于注意力机制的视线跟踪及空间人机交互应用研究

戴立红

基于注意力机制的视线跟踪及空间人机交互应用研究

戴立红1
扫码查看

作者信息

  • 1. 中国科学院大学
  • 折叠

摘要

视线跟踪广泛应用于司机疲劳驾驶检测、眼病或是心理疾病的诊断、网站或是广告设计、虚拟或是增强现实以及人-机交互等领域。视线作为一种自然而快捷的交互方式,在人-机交互方面具有明显的优势。尤其在空间站内,通过航天员的视线来控制空间机器人,给空间人机交互带来极大便利。然而,在自然场景下,人体的姿态千变万化,拍摄的图像甚至可能是侧脸或是背影,给有效进行视线跟踪带来了挑战。即使拍摄到正脸图像,受可变光照、镜面反射、可变位姿、遮挡、闭眼、人与相机之间距离增大等影响,拍摄的图像质量会下降,这些都给精确视线跟踪增加了难度。此外,在拍摄到正脸图像情况下,往往使用眼图像进行精确视线跟踪,获取眼图像需要定位虹膜中心,而由于眼睛的个体差异、眼睛开闭的程度、遮挡以及光照条件的变化,都给虹膜中心的检测和定位带来了挑战,进而影响着视线跟踪的精度。为了解决上述问题,本文从虹膜中心定位、自然场景下视线跟踪以及基于正脸图像的视线跟踪三个方面分别进行研究,提出相应的方法,并在此基础上进行了基于视线跟踪的空间人机交互应用研究,主要内容及结论如下: (1)在虹膜中心定位研究方面,提出了一种基于能量图合成的虹膜中心定位方法。将基于梯度法、等照度线法和眼感兴趣区域(RegionofInterest,ROI)中点的能量图进行合成,对虹膜中心进行定位,有效提升了定位精度。而且对于可变光照的低质量图像,采用图像修补技术,消除了部分镜面反射造成的影响。此外,提出了后处理修正方法,对闭眼和较大偏差的情况进行了修正,抑制了闭眼、黑边镜架、镜面反射、遮挡等对虹膜中心定位的影响,得到较精确的虹膜中心位置。在三种公开的数据库(BioID,TalkingFaceVideodatabase,MUCTFacedatabase)上进行了实验,定位误差在0.05范围内,提出方法的定位精度分别为90.1%、93.2%和85.4%,与基线梯度法(80.8%、81.1%和68.2%)相比,定位精度分别提升了9.3%、12.1%和17.2%,验证了提出的虹膜中心定位方法的有效性。 (2)在对自然场景下的视线跟踪研究方面,提出了一种基于残差块和注意力机制的视线跟踪方法。该方法不仅适用于正脸图像,而且对于侧脸甚至背影图像同样适用。系统采用了基于残差块的卷积神经网络(ConvolutionalNeuralNetworks,CNN),其残差学习的思想使得网络能够达到较深的层次,提取的语义信息更准确,而且网络中采用基于注意力机制的相乘连接方式,能够将关注的重要信息选择出来,与采用级联或者相加连接的方式相比,其视线跟踪性能更好。在两种公开的自然场景下的数据库(GazeFollow和DLGaze)上进行了实验,提出的视线跟踪方法中,两个通道都采用ResNet-50的模型角度误差分别为16.1°和16.9°,和目前最好的实验结果(17.6°和18.7°)相比,角度误差分别减小了1.5°和1.8°,证实了提出方法的有效性、鲁棒性以及泛化能力。此外,采用了轻量级的MobileNet-V2,在精度损失较小的情况下,网络的实时性进一步提升。 (3)在对正脸图像进行视线跟踪研究方面,提出了一种基于双眼特征融合和空间注意力机制的视线跟踪方法。采用了双眼特征融合机制、局部双眼空间注意力机制和全局双眼空间注意力机制,不但融合了左右眼图像的特征,而且充分利用注意力机制对重要信息的加权筛选作用,有效地提升了低质量图像视线跟踪的精度。在公开的大型GazeCapture数据库上,提出的视线跟踪方法的测试误差为1.86cm,和iTracker方法(2.23cm)相比,测试误差减小了0.37cm。带有图像增强的iTracker方法具有目前最好的结果为1.93cm,提出的方法与其相比精度也较高,实验结果证实了提出方法的精度优势和有效性。 (4)在基于视线跟踪的空间人机交互应用方面,借助于航天员助手机器人(AstronautAssistantRobot-2,AAR-2),进行了空间人机交互仿真实验。AAR-2安装到气浮台上,以模拟空间微重力环境,采用提出的基于双眼特征融合和空间注意力机制的视线跟踪方法对航天员的视线进行实时跟踪,通过视线控制AAR-2运行,同时利用无线射频通信技术传输信号并反馈其运行状态,实验结果表明视线跟踪的精度和实时性能够满足实际需求,进一步证实了提出方法的实用价值。 本文主要从上述四个方面进行研究,对低质量正脸图像的虹膜中心定位和视线跟踪以及自然场景下的视线跟踪进行了探索,提出了相应的解决方法,并进行了空间人机交互应用仿真实验,采用了图像修补、能量图合成、后处理修正、基于残差块的CNN、注意力机制和无线射频通信等关键技术,为视线跟踪和空间人机交互提供了一定的理论基础和技术支撑。

关键词

空间机器人/视线跟踪/注意力机制/人机交互

引用本文复制引用

授予学位

博士

学科专业

模式识别与智能系统

导师

高扬;刘金国

学位年度

2022

学位授予单位

中国科学院大学

语种

中文

中图分类号

TP
段落导航相关论文