基于语义特征抽取的文本聚类研究

Research on Text Clustering Based on Semantic Feature Extraction

殷硕 ¹王卫亚 ¹柳有权¹

扫码查看

作者信息

1. 长安大学信息工程学院,陕西西安 710064
折叠

摘要

基于向量空间模型(VSM)的文本聚类会出现向量维度过高以及缺乏语义信息的问题,导致聚类效果出现偏差.为解决以上问题,引入《知网》作为语义词典,并改进词语相似度算法的不足.利用改进的词语语义相似度算法对文本特征进行语义压缩,使所有特征词都是主题相关的,利用调整后的TF-IDF算法对特征项进行加权,完成文本特征抽取,降低文本表示模型的维度.在聚类中,将同一类的文本划分为同一个簇,利用簇中所有文本的特征词完成簇的语义特征抽取,簇的表示模型和文本的表示模型有着相同的形式.通过计算簇之间的语义相似度,将相似度大于阈值的簇合并,更新簇的特征,直到算法结束.通过实验验证,与基于K-Means和VSM的聚类算法相比,文中算法大幅降低了向量维度,聚类效果也有明显提升.

关键词

文本聚类/语义特征抽取/特征降维/文本相似度/知网

引用本文复制引用

基金项目

中央高校基本科研业务费专项资金(310824173401)

出版年

2020

计算机技术与发展

陕西省计算机学会

计算机技术与发展

CSTPCD

影响因子：0.621

ISSN：1673-629X

被引量3

参考文献量7

段落导航