首页|基于LDA特征选择的文本聚类

基于LDA特征选择的文本聚类

A Feature Selection Algorithm Based on LDA for Texts Clustering

扫码查看
特征选择在文本聚类中起着至关重要的作用,将产生式模型Latent Dirichlet Allocation(LDA)引入基于K-means算法的文本聚类中,通过提取特征与隐含主题的关系进行特征选择.在第2届中文倾向性分析评测的语料上的实验结果表明,当选择2%的特征时,相对于单词贡献度(TC,Term Contribution)方法的纯度和F值分别提高了0.15和0.16,相对于LDA直接得到文本与主题的关系的实验结果的纯度和F值分别提高了0.14和0.13.

张梦笑、王素格、王智强

展开 >

山西大学数学科学学院,太原030006

山西大学计算机与信息技术学院,太原030006

山西大学计算智能与中文信息处理教育部重点实验室,太原030006

文本聚类 特征选择 Latent Dirichlet Allocation

国家自然科学基金国家自然科学基金教育部高等学校博士学科点专项科研基金山西省自然科学基金山西省科技攻关项目太原市科技局明星专项

60875040609700142008010800062010011021-120110321027-0209121001

2012

电脑开发与应用
中国北方自动控制技术研究所

电脑开发与应用

影响因子:0.265
ISSN:1003-5850
年,卷(期):2012.25(1)
  • 3
  • 2