计算机技术与发展2020,Vol.30Issue(3) :46-50.

基于语义特征抽取的文本聚类研究

Research on Text Clustering Based on Semantic Feature Extraction

殷硕 王卫亚 柳有权
计算机技术与发展2020,Vol.30Issue(3) :46-50.

基于语义特征抽取的文本聚类研究

Research on Text Clustering Based on Semantic Feature Extraction

殷硕 1王卫亚 1柳有权1
扫码查看

作者信息

  • 1. 长安大学 信息工程学院,陕西 西安 710064
  • 折叠

摘要

基于向量空间模型(VSM)的文本聚类会出现向量维度过高以及缺乏语义信息的问题,导致聚类效果出现偏差.为解决以上问题,引入《知网》作为语义词典,并改进词语相似度算法的不足.利用改进的词语语义相似度算法对文本特征进行语义压缩,使所有特征词都是主题相关的,利用调整后的TF-IDF算法对特征项进行加权,完成文本特征抽取,降低文本表示模型的维度.在聚类中,将同一类的文本划分为同一个簇,利用簇中所有文本的特征词完成簇的语义特征抽取,簇的表示模型和文本的表示模型有着相同的形式.通过计算簇之间的语义相似度,将相似度大于阈值的簇合并,更新簇的特征,直到算法结束.通过实验验证,与基于K-Means和VSM的聚类算法相比,文中算法大幅降低了向量维度,聚类效果也有明显提升.

关键词

文本聚类/语义特征抽取/特征降维/文本相似度/知网

引用本文复制引用

基金项目

中央高校基本科研业务费专项资金(310824173401)

出版年

2020
计算机技术与发展
陕西省计算机学会

计算机技术与发展

CSTPCD
影响因子:0.621
ISSN:1673-629X
被引量3
参考文献量7
段落导航相关论文