首页|中文文本自动分类中特征向量选择的一种改进算法

中文文本自动分类中特征向量选择的一种改进算法

扫码查看
随着互联网的迅速发展,对海量的信息进行处理再加工显得尤为重要.文本自动分类是信息检索方面一个基础性的研究工作,即,研究在特定的分类体系下,如何根据文本的内容自动判别文本的类别,以减少信息检索的范围.本文介绍了文本分类的一些关键技术,包括文本表示,特征向量的选择,分类算法等,并且对常用的特征向量选择算法进行了比较,分析其中存在的问题并提出一种特征向量选择的改进算法,即找出一类有较强类别区分意义的特征词,构成特征向量.利用改进后的算法对语料库进行训练和测试,实验结果表明,在使用各种分类算法对中文文本进行分类的过程中,改进后的特征向量选择算法对分类准确率有不同程度的提高.

王若翔、刘亚军

展开 >

东南大学计算机与科学工程学院,南京,210096

文本分类 特征向量 信息检索 分类算法 语料库

中国计算机学会

江苏省计算机学会

江苏省软件行业协会

全国第五次程序设计语言发展与教学学术会议、第三届全国Web信息系统及其应用学术会议暨全国首届语义Web与本体论学术研讨会

2006-10-01

南京

计算机科学

236-239

2006