摘要
随着互联网和移动计算技术的发展,大规模进行问卷数据收集变得比以往任何时候都更加可行,大型问卷数据的出现使得数据分析变得更加困难。不仅如此,随着问卷数量的不断增加不可避免地会产生数据质量不高,甚至问卷数据造假的情况。目前的问卷数据分析大都基于传统的统计分析方法和浅层机器学习技术。近年来,深度学习技术在许多领域取得了成功,人们开始越来越关注深度学习是否适用于进行问卷数据分析。在此背景下,本文尝试利用深度学习方法对问卷数据分析中的两个重要问题展开研究:异常检测和虚假数据检测。本文的主要研究工作为: 首先,在问卷数据异常检测中,本文设计了一个新的基于深度学习的异常检测框架(QuesNet),框架包含三个关键模块:问卷数据建模,将每个参与者的问卷内容看作连续的序列,通过自监督的方式来挖掘问卷序列中的关键信息并进行建模;问题间关系抽取模块,通过注意力机制感知问题间的关联关系,并使模型的决策更具可解释性;异常嗅探打分机制,结合N元语言模型计算序列存在概率的思想设计了一种新的用于计算问卷数据异常概率的打分函数。本文通过问卷统计属性分类实验验证了建模方法的合理性和有效性,并将该框架应用于问卷数据分析的异常检测任务中,与对比算法相比取得了最佳效果并得出了一系列有意义的结论。 其次,在虚假问卷数据检测中,提出了一种基于深度学习的新方法。所提方法主要包括三个关键模块:对抗性训练骨架网络,使模型能够在少负样本甚至无负样本的条件下进行训练;鉴别模块,与对比检测方法相比,具有最好的虚假问卷数据识别能力;生成模块,利用生成模块构造了具有不同概率分布的虚假问卷数据集,并利用该数据集验证了本文所提检测方法的有效性和普适性。 综上,本文开创性地尝试了利用深度学习进行问卷数据分析,所提方法与对比算法相比,在异常检测和虚假数据检测两个任务上均取得了最好的效果。相信未来深度学习可以应用于问卷数据分析的更多研究方向。