摘要
基于向量空间模型(VSM)的文本聚类会出现向量维度过高以及缺乏语义信息的问题,导致聚类效果出现偏差.为解决以上问题,引入《知网》作为语义词典,并改进词语相似度算法的不足.利用改进的词语语义相似度算法对文本特征进行语义压缩,使所有特征词都是主题相关的,利用调整后的TF-IDF算法对特征项进行加权,完成文本特征抽取,降低文本表示模型的维度.在聚类中,将同一类的文本划分为同一个簇,利用簇中所有文本的特征词完成簇的语义特征抽取,簇的表示模型和文本的表示模型有着相同的形式.通过计算簇之间的语义相似度,将相似度大于阈值的簇合并,更新簇的特征,直到算法结束.通过实验验证,与基于K-Means和VSM的聚类算法相比,文中算法大幅降低了向量维度,聚类效果也有明显提升.
基金项目
中央高校基本科研业务费专项资金(310824173401)