摘要
空气质量检测是环境保护的重要组成部分,通过收集各地区实时的空气质量数据并建设动态的空气质量检测网络,监管部门就能够客观分析空气污染对环境和人类健康的影响,目前空气质量检测站中使用的空气质量检测方法需要复杂的物化传感器,在检测的频率和灵活性上存在一定限制。随着近年来深度学习技术的发展,许多基于视觉数据的空气质量检测模型相继出现。这些模型使仅持有手机的普通人也可以根据其拍摄的图像即时获得本地空气质量指数(Air Quality Index,AQI)。 普通人的参与将为空气质量检测任务提供大量包含复杂相近内容的图像数据。对这类数据的分类属于细粒度分类任务,与拥有自注意力机制且更关注局部信息的深度自注意力网络(Transformer)相契合。因此,我们提出了一种双输出视觉深度自注意力网络(Double Output Vision Transformer,DOViT)。该方法将在云端对用户使用移动设备拍摄并上传的图像进行处理,然后预测用户所在区域的本地空气质量指数。本方法相比于传统方法在灵活性和检测频率方面有很大提高。 由于本研究方向缺少公开数据集,本文建立了包含由移动设备拍摄获取的1,054张高质量天空图像的数据集GAOs-2(Get AQI in One shot-2)用于实验与测试,并在使用过程中通过数据增强加以扩充。通过与主流空气质量检测方法的对比实验证明,本文提出的双输出视觉深度自注意力网络可以以较高精度预测空气质量指数等级。双输出视觉深度自注意力网络极大的增加了空气质量检测检测的频率和灵活性,可以成为环保部门监控污染的辅助手段。 同样由于缺少公开数据集,本文对使用自监督学习方法训练的深度自注意力网络进行了研究,并提出了拼图视觉深度自注意力网络(Jigsaw Vision Transformer,JiT)和包含6,000张无标签高质量天空图像的数据集GAOs-3(Get AQI in One shot-3)。最终测试结果表明,拼图视觉深度自注意力网络在只使用少量有标签数据集的条件下达到了较高的精度,具有一定的研究价值。