摘要
随着深度学习的发展,基于卷积神经网络(ConvolutionalNeuralNetwork,CNN)模块和注意力机制的深度学习算法成为工业界与学术界的研究热点,其为不同领域中的任务都带来了新的解决方案。人群计数作为计算机视觉领域的研究热点,亦是如此。但现有算法所设计的CNN模块对小尺度目标不友好,也难以高效地提取多尺度特征,且所得特征图较为模糊;相应的注意力机制不够完善,仅关注空间维度的注意力,且构造方式较为复杂,低效。而且,现有工作聚集于监控摄像头所拍摄的普通场景,却忽视无人机所拍摄的航拍场景。而两大场景各自具有鲜明的特征,需进行针对性的设计。于是,本文从CNN模块和注意力机制两方面入手,分别针对航拍场景和普通场景设计相应的解决方案。 对于航拍场景,本文设计了轻量双任务网络(LightweightDual-taskNetwork,LDNet)模型。具体地,在LDNet中构建了高效膨胀卷积模块,在宽度方向上堆叠膨胀因子不同的膨胀卷积,相比于现有方法可有效解决栅格化现象以及特征提取不高效的问题。同时,针对性地设计了轻量的特征聚合模块来精细化特征图。并且,针对复杂的背景信息,提出了通道级注意力机制和位置注意力机制,去除了冗余的背景信息,令模型更加关注前景人群的计数,保证速度的同时,进一步提升人群计数的准确度。实验证明,本文设计的LDNet模型具有轻量化的结构以及较高的准确度。 对于普通场景,本文设计了全注意力人群计数(CrowdCountingwithTrans-former,CCTrans)模型。具体地,在CCTrans中基于全注意力网络(Transformer)构建全局注意力来进行上下文建模,以捕获普通场景中存在的尺度差异和密度差异,有效简化网络流程。并针对性地提出了多尺度膨胀卷积模块(Multi–scaleDilatedConvolution,MDC)和金字塔特征聚合模块(PyramidFeatureAggregation,PFA),可有效处理所捕获的尺度和密度差异来回归准确的计数结果,并精细化特征图。同时对损失函数进行优化,提升模型预测的稳定性。实验证明,本文设计的CCTrans模型具有简化的网络流程,且在多个数据集上都有较好的表现。 本文从CNN模块与注意力机制入手,分别提出适合航拍场景和普通场景的人群计数模型,有效地简化了网络流程,并提升人群计数的准确度。