摘要
网络水军所带来的不良影响不仅破坏了网络空间秩序,而且还可能引发网络信任危机、影响社会安定。针对网络水军的管控和治理已成为当前多个学科的研究热点,分析网络水军与正常用户的差异、建立网络水军个体识别模型对网络水军的研究有重要的意义,而对网络水军团体划分的研究有助于挖掘网络水军行为模式,为网络水军团体的责任界定提供帮助。 本文以微博平台上的用户信息为研究对象,在分析了现有研究中存在的不足后,针对微博网络水军特征构造、微博网络水军个体识别算法与微博网络水军团体划分方法展开了研究。主要内容包括: 第一,针对当前网络水军特征覆盖面不足的问题,综合社会科学对其的定义和微博网络水军与正常用户的差异性,结合微博网络水军中僵尸账户、劫持账户、雇佣账户和核心账户等不同的突出特征,在用户个人信息特征、微博内容特征、用户行为特征和用户关系特征的基础上,构造了用户活跃度、微博内容合理度、用户身份可靠度、用户行为合理度4个新特征,并通过卡方检验算法剔除了部分不相关特征。实验结果表明,本文构造的特征集能更好地表达水军与正常用户的差异性,能有效提高识别模型的效果。 第二,针对网络水军标注困难的问题,借助半监督学习的思路与方法,提出了一种基于AffinityPropagation算法的微博网络水军个体识别算法(Base on Affinity Propagation Method of Single Detection of Internet Hirelings on Weibo, APDHW)。首先,利用部分标注数据和大量未标注数据,通过在AffinityPropagation聚类中引入Radius阈值实现了水军标注集的扩充,然后结合支持向量机实现了对水军账户的识别。实验结果表明,本文提出的微博网络水军个体识别算法更适合微博水军的识别。 第三,针对当前研究中缺少网络水军团体划分方法的问题,提出了一种基于水军账户信息的团体划分方法。首先在网络水军原始特征的基础上,结合不同水军在信息传播过程中扮演角色不同与分工不同的特点,构造了水军活跃度、水军影响力和水军重要度三个新特征。在模型的社区划分算法方面,为探寻更适合微博网络水军团体划分的算法,选取了AffinityPropagation、K-means、Density-BasedSpatialClusteringofApplicationswithNoise(DBSCAN)和MeanShift算法作为候选算法。实验结果表明,本文所构造的特征集能更有效地表达水军团体角色和分工的差异性,在当前数据规模情况下K-means算法更适合微博水军团体划分。