首页|基于自适应特征词的微博噪音过滤方法

基于自适应特征词的微博噪音过滤方法

扫码查看
微博噪音过滤具有去除垃圾样本、降低数据规模等作用。利用聚类算法产生噪音种子词,在未标注数据上采用FP-Growth算法对种子词扩展,生成噪音特征词词典,结合用户和内容特征,引入支持向量机模型用于噪音微博过滤。实验结果正确率为84%,召回率为79%,F1值为81%,证明该模型产生的噪音特征词有助于提升微博过滤的效果。
Microblog Noise Filtering Method Based on Self-adaptive Characteristics
Microblog noise filtering can remove garbage samples and reduce data scale.The noise seed words are generated by the clustering algorithm.FP-Growth algorithm is used to expand the seed words on unlabeled data to generate a noise feature word dictionary.Combining user and content characteristics,the support vector machine model is introduced to filter noise microblogs.The experimental results shows that the precision is 84%,the recall is 79%,the F1 value is 81%,which proves that the noise char-acteristics generated by the model can help to improve the filtering effect of microblog.

microblogself-adaptivenoise characteristicsSVM

张晓瑜、高扬、苗星星、祝永霞

展开 >

中国人民解放军32317部队 乌鲁木齐 830000

中国人民解放军32319部队 乌鲁木齐 830000

陆军边海防学院 乌鲁木齐 830000

微博 自适应 噪音特征词 支持向量机

2024

计算机与数字工程
中国船舶重工集团公司第七0九研究所

计算机与数字工程

CSTPCD
影响因子:0.355
ISSN:1672-9722
年,卷(期):2024.52(2)
  • 17