基于卷积神经网络和注意力机制的人群计数算法研究

田野¹

扫码查看

作者信息

1. 哈尔滨工业大学
折叠

摘要

随着深度学习的发展，基于卷积神经网络（ConvolutionalNeuralNetwork，CNN）模块和注意力机制的深度学习算法成为工业界与学术界的研究热点，其为不同领域中的任务都带来了新的解决方案。人群计数作为计算机视觉领域的研究热点，亦是如此。但现有算法所设计的CNN模块对小尺度目标不友好，也难以高效地提取多尺度特征，且所得特征图较为模糊；相应的注意力机制不够完善，仅关注空间维度的注意力，且构造方式较为复杂，低效。而且，现有工作聚集于监控摄像头所拍摄的普通场景，却忽视无人机所拍摄的航拍场景。而两大场景各自具有鲜明的特征，需进行针对性的设计。于是，本文从CNN模块和注意力机制两方面入手，分别针对航拍场景和普通场景设计相应的解决方案。对于航拍场景，本文设计了轻量双任务网络（LightweightDual-taskNetwork，LDNet）模型。具体地，在LDNet中构建了高效膨胀卷积模块，在宽度方向上堆叠膨胀因子不同的膨胀卷积，相比于现有方法可有效解决栅格化现象以及特征提取不高效的问题。同时，针对性地设计了轻量的特征聚合模块来精细化特征图。并且，针对复杂的背景信息，提出了通道级注意力机制和位置注意力机制，去除了冗余的背景信息，令模型更加关注前景人群的计数，保证速度的同时，进一步提升人群计数的准确度。实验证明，本文设计的LDNet模型具有轻量化的结构以及较高的准确度。对于普通场景，本文设计了全注意力人群计数（CrowdCountingwithTrans-former，CCTrans）模型。具体地，在CCTrans中基于全注意力网络（Transformer）构建全局注意力来进行上下文建模，以捕获普通场景中存在的尺度差异和密度差异，有效简化网络流程。并针对性地提出了多尺度膨胀卷积模块（Multi–scaleDilatedConvolution，MDC）和金字塔特征聚合模块（PyramidFeatureAggregation，PFA），可有效处理所捕获的尺度和密度差异来回归准确的计数结果，并精细化特征图。同时对损失函数进行优化，提升模型预测的稳定性。实验证明，本文设计的CCTrans模型具有简化的网络流程，且在多个数据集上都有较好的表现。本文从CNN模块与注意力机制入手，分别提出适合航拍场景和普通场景的人群计数模型，有效地简化了网络流程，并提升人群计数的准确度。

关键词

人群计数算法/卷积神经网络/注意力机制/深度学习

引用本文复制引用

授予学位

硕士

学科专业

计算机技术

导师

王鸿鹏

学位年度

2021

学位授予单位

哈尔滨工业大学

语种

中文

中图分类号

段落导航