基于生成对抗网络的图像零样本识别方法研究

许世斌¹

扫码查看

作者信息

1. 西安电子科技大学
折叠

摘要

传统图像识别技术通常基于有监督学习方法，在含有大量带标签样本的数据集上训练识别模型。然而，样本的标注往往需要相关领域的专家进行，对人力资源有着极高的需求。此外，传统图像识别技术难以处理待识别目标类别不断增加的问题。基于上述原因，研究者不再满足于使用有监督训练方式学习图像识别模型，提出了零样本图像识别的概念。零样本图像识别技术利用人类对各目标类别的语义描述中所蕴含的知识，将部分含有训练图像样本的可见类上所学习到的知识迁移到没有训练图像样本的未见类。相比传统图像识别技术，零样本图像识别具备跨类别的泛化能力，有着更贴合实际的应用前景。生成对抗网络可以在零样本图像识别任务中的可见类上学习图像样本在语义描述约束下的条件概率分布，利用未见类语义描述生成未见类图像样本，与零样本图像识别任务高度契合。基于生成对抗网络的零样本图像识别方法的研究，是该领域内的一个主流发展方向，但目前依然需要面对诸多挑战性的难题。本文基于生成对抗网络，针对零样本识别中所存在的枢纽点问题、域偏移问题以及语义间隔问题，设计了两种零样本图像识别框架：（1）针对零样本识别中所存在的枢纽点问题与域偏移问题，分别从生成样本的多样性与语义相关性出发，设计了基于双语义重构生成网络的零样本图像识别模型BSRGAN。在BSRGAN中：1）针对生成样本的多样性问题，设计了多聚类中心约束与样本差异性惩罚项，对生成样本的多样性进行增强；2）针对生成样本的语义相关性问题，设计了双语义重构模块，用于计算可见类与未见类生成样本的语义重构损失，提高生成样本的语义相关程度；3）在零样本识别阶段，以双语义重构结构为基础提出了一种视觉-语义识别机制。（2）针对零样本识别中的语义间隔问题，以（1）中方法的基本框架为基础，将依据数据集各类别间的上下位关系所建立的知识图谱引入生成式零样本图像识别中，提出了基于知识图谱小波残差生成网络的零样本图像识别模型KGWRGAN。在KGWRGAN中：1）将图卷积网络作为特征提取工具，结合知识图谱与语义描述提取语义特征，用于生成未见类视觉特征；2）针对生成对抗网络的训练困难的问题，采用小波残差网络结构，作为生成器与判别器中的神经网络结构，该结构以对入口数据进行HAAR小波多级分解的结果作为神经网络中所传输的数据的冗余项。所提出方法在SUN、APY、CUB、AWA2以及ImageNet等标准数据集进行实验，选取近十年来突出的算法进行对比，证明了所提出方法的有效性和优越性。所对比算法中，部分算法由于缺乏对应数据集上的试验数据，在对比时对其进行了复现。此外，对所提出方法中的关键参数进行了额外的实验，以验证其影响方式。

关键词

图像零样本识别/零样本学习/图卷积网络

引用本文复制引用

授予学位

硕士

学科专业

计算机技术

导师

万波/张帆

学位年度

2021

学位授予单位

西安电子科技大学

语种

中文

中图分类号

段落导航