摘要
在人群计数领域,可采用U型结构的全卷积神经网络模型将人群场景图映射为人群密度图.在映射的过程中,引入空间注意力机制和通道注意力机制,分别从空间维度和通道维度提取人群场景图的重要信息和抑制非重要信息.根据该思想,设计了一种基于通道和空间注意力机制的U型Transformer模型(SC U-Transformer).SC U-Transformer包含编码和解码过程,编码过程使用Swin-Transformer作为编码器,提取上下文特征并实现下采样;解码过程使用包含扩展图像块的对称Swin-Transformer模型,并添加了空间注意力模块和通道注意力模块,分别使模型更加关注前景和相关联的特征通道.根据ShanghaiTech数据集和UCF_CC_50 的实验结果可知,SC U-Transformer能够将人群场景图转换为高质量的人群密度图.