摘要
随着网络的不断发展,社交网络中的信息共享变得更加复杂,不再仅仅局限于文本,而是涉及到多种模态的数据,也包括一些不适宜的、敏感的或违规的内容,这些内容包括但不限于色情、暴力、仇恨、恐怖主义、骚扰等。这给网络的安全与健康发展带来了很大的冲击。因此,检测和处理互联网中的多模态敏感信息对于保障互联网安全、维护公共秩序、保护用户利益具有重要的意义。传统的检测方法最大的问题是对多模态信息融合语义理解的缺失,就给了不法分子一些绕过的机会,当前深度学习算法具有较好的特征提取和特征融合机制,在自然语言处理、计算机视觉等领域取得了较好的效果。本文主要利用深度学习来提取、融合文本和图像的多尺度特征,来实现对社交网络中多模态敏感信息的检测。主要研究内容如下: (1)研究融合了上下文语义倾向特征的文本信息检测方法,在特征提取阶段,在传统Word2Vec语义特征方法上,提升了对语义的理解,提出了对上下文语义倾向特征进行提取,并结合长短时记忆网络和自注意力机制,得到了语义倾向分类模型,该模型对文本语义倾向进行分类预测后得到一个二分类结果。在此基础上提出融合语义倾向特征的敏感信息检测模型,将文本检测结果和语义倾向特征的分类结果进行融合计算,得到最终的检测结果。通过实验表明,此方法优于传统敏感信息检测方法。 (2)研究了融合多模态特征的敏感信息检测方法,在(1)研究的基础上,加入了对图像语义的理解,利用VGG-19网络模型对图像的标签词向量进行提取,利用SIFT算法对图像BoVW特征进行提取,再将以上特征和文本特征进行融合分类,进行多模态信息的检测。 (3)针对项目的实际需求,贴合实际应用场景,设计并实现敏感信息检测子系统,该系统主要包括用户管理模块、数据处理与分析模块和人机交互模块。用户管理模块包括了三个主要的功能,分别是:用户登录、用户信息管理和用户权限管理;数据处理与分析模块主要是对融合多模态特征的敏感信息检测模型的应用,实现对模型的训练和调用,实现敏感信息检测;人机交互模块主要是将检测结果和历史记录查询等信息对用户进行展示。