首页|面向社交网络的数据预处理关键技术研究

面向社交网络的数据预处理关键技术研究

扫码查看
近年来,随着互联网技术及计算机硬件的发展,数据已经呈爆炸式增长,社交网络已经融入到人们生活的方方面面。与此同时,相应的问题也层出不穷。在社交网络中,充斥着大量的无关信息。在数据挖掘的应用中,基于社交网络数据的数据预处理算法还存在着较为明显的不足。 首先,基于社交网络数据的中文短文本去重算法效果不理想。现有的中文短文本去重算法常借鉴英文的去重方法,或者移植中文网页的去重算法。这些算法有的误判率较高,有的则更适合处理长文本,处理短文本的效果不佳。 其次,缺少有效的基于社交网络数据的图片数据集预处理算法。在社交网络中,每日产生大量的图片数据。现阶段的研究中,通过深度学习的方法对图片进行分类,其仅仅考虑到了算法模型的优劣及效果,并没有考虑到其所用数据集的质量。目前,缺少有效的针对社交网络中图片数据集的预处理算法。 最后,缺少有效的基于社交网络数据的图文混合预处理算法。实际上,在发布的图文混合数据中存在着大量的无关数据,例如:一条记录中混杂着广告图片等。目前,缺少有效的针对社交网络中图文数据的预处理算法。 本文针对数据挖掘应用,在社交网络数据的基础上,提出了如下创新点,贡献如下: 1本文提出了一种融合多特征的中文短文本去重算法(B-Simhash)。该算法以Bloom Filter算法和Simhash算法为基础,并进行分词优化和权重优化,使其更适合社交网络中中文短文本的处理。通过实验证实,该算法及其优化策略对中文短文本的去重起到了良好的作用。 2本文提出了一种基于深度学习的图片数据集预处理算法(ImageDC)。ImageDC算法利用深度学习技术,对5种问题图片进行预处理,有效地提高了图片数据集的质量,进而为后续分析算法提供了有力的数据支撑。 3本文提出了一种基于深度学习的多维度图文混合预处理算法(HDCMDL)。该算法利用深度学习技术,将文本和图片的特征进行融合,用以找到不相关的文本,和提取出无关的图片,最终提高数据质量。

张云

展开 >

数据挖掘 数据预处理 深度学习 特征融合

博士

计算机系统结构

王伟平

2020

中国科学院大学

中文

TP