首页|基于改进TFIDF的文本特征选择算法

基于改进TFIDF的文本特征选择算法

扫码查看
在中文文本自动分类系统中,文档通常采用向量窄问模型(VSM)表示,所有文档属件构成一个高维度的属性空间,而在文本分类中高维度的特征空间是一个难以解决的问题。TFIDF是文档特征权值表示常用方法,该方法简单易行,但传统的TFIDF没有考虑特征词项在各个类之间分布的不均衡性,本文对TFIDF特征选择算法进行了深入的分析,并基于基尼指数原理提出了一种新的TFIDF特征选择算法,实验结果表明,改进后的算法可以有效地提高文本分类的精确度。

杨成成、贺兴时

展开 >

西安工程大学,西安 710048

文本分类 特征选择 TFIDF 基尼指数

中国自动化学会

中国图象图形学会

2008年全国模式识别学术会议

2008-10-22

北京

2008年全国模式识别学术会议论文集

416-419

2008