中文文本自动分类中特征向量选择的一种改进算法

扫码查看

原文链接

NETL

中文摘要：随着互联网的迅速发展,对海量的信息进行处理再加工显得尤为重要.文本自动分类是信息检索方面一个基础性的研究工作,即,研究在特定的分类体系下,如何根据文本的内容自动判别文本的类别,以减少信息检索的范围.本文介绍了文本分类的一些关键技术,包括文本表示,特征向量的选择,分类算法等,并且对常用的特征向量选择算法进行了比较,分析其中存在的问题并提出一种特征向量选择的改进算法,即找出一类有较强类别区分意义的特征词,构成特征向量.利用改进后的算法对语料库进行训练和测试,实验结果表明,在使用各种分类算法对中文文本进行分类的过程中,改进后的特征向量选择算法对分类准确率有不同程度的提高.

作者：

王若翔、刘亚军

展开 >

作者单位：

东南大学计算机与科学工程学院,南京,210096

关键词：

文本分类特征向量信息检索分类算法语料库

主办单位：

中国计算机学会

江苏省计算机学会

江苏省软件行业协会

会议名称：

全国第五次程序设计语言发展与教学学术会议、第三届全国Web信息系统及其应用学术会议暨全国首届语义Web与本体论学术研讨会

会议时间：

2006-10-01

会议地点：

南京

会议母体文献：

计算机科学

页码：

236-239

出版时间：

2006